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إن العمل الذي بين يدي القارئ هو ترجمة من اللغة الصينية Aal‏ عن علم الذخائر 
اللغوية. يعبر ple‏ الذخائر اللغوية من العلوم اللغوية التأسيسية التي ES‏ مفهوم دراسة 
اللغة في بيئتها الطبيعية» بعيدا عن القياس اللغوي المنطقي الذي ساد في حقل 
الدراسات اللغوية قرونًا عدة. إن ple‏ الذخائر اللغوية ple‏ يبحث في كيفية جمع النصوص 
اللغوية الطبيعية وتهيئتها وترميزها؛ بحيث تكون صالحة للبحث اللغوى ودراسة الظواهر 
اللغوية الطبيعية على مستوى أفرع ple‏ اللغة بنظرياته وتطبيقاته الي مكل عانم 
الذخائر اللغوية. باعتباره dal‏ المنهجيات التي تمهد راسا اللغة الطبيعية بشكل 
موضوعيء مكانة متقدمة في حقل اللسانيات الحديثة. وقد استثمرت ت منهجية الذخائر 
اللغوية في الأبحاث اللغوية التي تحدم علم اللغة التطبيقي بأفرعه المخظقة وفي مقدمتها 
اللغويات الحاسوبية؛ وصناعة all‏ المصطلح, وتعليم اللغات لأهلها أو 
للأجانب والترجمة تعليمًا وممارسة؛ وما إلى ذلك. والجدير بالذكر أن هذا العلم قد نما 
وتطور تحت مظلة ple‏ اللغة الحاسوبي. 
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تبر علم الذخائر اللغوية من العلوم اللغوية التأسيسية التي ترسخ 
مفهوم دراسة اللغة في بيئتها ١‏ لطبيعيةء بعيدا عن القياس اللغوي المنطقي 
الذي ساد في حقل الدراسات اللغوية قروب عدة. إن علم الذخائر اللغوية 
الذي Gad‏ له عالم اللغة الإنجليز ي ليتش (Leech)‏ في النصف الثاني من 
القرن العشرينء هو ple‏ يبحث في كيفية جمع النصوص اللغوية الطبيعية 
وتهيئتها وترميزها؛ بحيث تكون صالحة للبحث اللغوي ودراسة الظواهر 
اللغوية الطبيعية على مستوى أفرع ale‏ اللغة بنظرياته وتطبيقاته الحديثة. 
يحتل ale‏ الذخائر اللغوية- باعتباره أحد المنهجيات التي تمهد لدراسة اللغة 
الطبيعية بشكل موضوعي- مكانة متقدمة في حقل اللسانيات الحديشة. ولا 
غنى للباحث اللغوي عن التعرف على مفاهيم هذا aleli‏ وفنياته وتطبيقاته» بل 
oly Goby‏ الذخائر اللغوية بأحجامها المختلفة لخدمة أغراض بحثية معينة. 


)١(‏ لمزيد من المعلومات عن تأصيل مصطلح "الذخائر اللغوية انظر: 
هشام موسى المالكيء "إشكاليات تهيئة الذخائر اللغوية وبنائها حاسوبيًا -اللغقان 
العربية والصينية- نموذجًا": مجلة أواصرء المجلد الثاني؛ المركز القومي للترجمة». 
القاهرة؛ ۹٠٠۲ء‏ ص .٥٦-۲۸‏ 

ae ala gall من مواليد 5535 », عمل أستاذا‎ ‘(Geoffry Leech) جيفري ليش‎ (X) 
aY حتى‎ ۱۹۷٤ الإنجليزية الحديثة بجامعة لانكاستر البريطانية في الفترة من‎ 
nee ٠7 ويعمل أستاذا متفرغا بقسم اللغويات واللغة الإنجليزية بالجامعة نفسها منذ‎ 
الآن» كما أنه عضو بالأكاديمية النرويجية للعلوم والآداب.‎ 
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فالذخيرة اللغويةء Giy‏ لمفاهيم علم الذخائر اللغوية هي بناء لغفوي 
يتمتع بمواصفات ومعايير فنية تجعله قادرًا على. استيعاب النصوص اللغوية 
وإتاحتها للبحث اللغوي العام والخاص. وينبغي أن تخضع النصوص اللغوية 
التي يحتويها هذا البناء إلى قواعد معينة من حيث أساليب الجمع؛ ونمّب 
التمثيل؛ وطرق المعالجة قبل عملية الجمع وبعدهاء ومنهجيات الترميز 
والأساليب التي يتم على أساسها عمليات الاستعلام والاستدعاء حسب 
متطلبات البحث اللغوي. 

وقد i‏ منهجية الذخائر اللغوية في الأبحاث اللغوية التي تخدم 
ale‏ اللغة التطبيقي بأفرعه المختلفة وفي مقدمتها اللغويات الحاسوبيةء 
وصناعة sapla‏ وعلم المصطلح» وتعليم اللغات لأهلها أو للأجانب» ٠:‏ 
والترجمة تعليمًا وممارسةء وما إلى ذلك. والجدير بالذكر أن هذا العلم قد نما 
وتطور تحت مظلة علم اللغة الحاسوبي. وقد تفاعل giddi‏ معا أخذا وعطاءً 
على مدى ما يزيد عن نصف قرن؛ حيث ساهم علم الذخائر اللغوية بما CB‏ 
من مفاهيم ومنهجيات في تطوير آليات علم اللغة الحاسوبي في التعامل ممع 
المادة اللغوية الطبيعية موضع البحث سواء على المستوى الشفهي أو 
المستوى التحريري. وعلى الجانب الآخرء فقد ساهم تطور علم اللغة 
الحاسوبي الذي تواكب مع تطور إمكانات الحاسوب في تقديم الأدوات التقنية 
التي كان لها أكبر الأثر في تقدم مفاهيم abiy‏ بناء الذخائر اللغوية. وعلى هذا 
الأساس؛ يمكننا القول بوجود علاقة طردية بين المجالين» تجعل كلا منهما 
يؤثر في الآخر دفعًا وتطويرا. 


وعلى الرغم من ذلك فإنني أنظر إلى هذا العلم بمفاهيمهء وآلياته؛ 
ونطزياته من خلال منظون أوسع Jag‏ فائذة yall RAMP ple‏ تحرج من 
إطار اللغويات الحاسوبية لتشمل البحث العلمي في كل ما يتصل بالإنكاج ' 
اللغوي عند أي جماعة لغوية el gu‏ في اتجاه أحادي؛ أو في اتجاه تقابلي أو 
مقارن مع لغات أخرى. Graal y‏ بذلك مجالات الإبداع الأدبي وبخاصة ما 
يتعلق بالنقد الأدبي وتحليل النصوص الأدبية؛ حيث ES‏ أدوات هذا العلم 
الباحث من جمع النصوص الإبداعية el gil‏ المختلفة وتهيئتها Ceol)‏ 
العلمي» وتطوير آليات البحث فيها عن طريق ترميزها بمنهجيات مختلفة 
تتيح الفرصة لإجراء عمليات استعلام متعددة الوظائف عليها لاستخراج 
pal lal‏ الأدبية» والخصائمن: الأسلزبية للتضوض atl pata ye‏ أو KY‏ 
LS‏ يمكن أن تمتد فائدته لدراسة النصوص الدينية وتفسيراتها أو ترجماتها 
المختلفة بغرض الوقوف على أوجه التشابه والاختلاف بين التفاسير أو 
الترجمةء أو جمع النصوص التراثية وتحليلها من وجهة نظر pte‏ اللغة 
التداولي» وتحقيقها وما إلى ذلك من قضايا بحثية. وتحقيق تلك القضايا 
البحثية بالطرق التقليدية لا يتيح الوصول إلى النتائج المرجوة إلا بعد 
استنزاف وقت وجهد طائلين من الباحثينء بالإضافة إلى تحجيم نطاق النتائج 
التي يتم تحقيقهاء فضلاً عن عدم وجود تراكم للنصوص المدروسةء التي لا 
تتم معالجتها Giy‏ لمعايير علم الذخائر اللغوية Kah Ley‏ من الاستعانة بها في 
مستويات بحثية أخرى. 

والعمل الذي بين يدي القارئ هو ترجمة من اللغة الصينية لمؤلف عن 
علم الذخائر اللغوية الذي ترجع أصوله إلى اللغة الإنجليزية» ثم أخذ رحلته 
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ف التطور والارتقاء عبر لغات مختلفة سواء من حيث التأليف وعقد سلاسل 
المؤتمرات الدورية المتخصصة:؛ أو من dya‏ مشروعات الذخائر اللغوية 
الضخمة التي ثنشئها الدول وترعاها وتمولها بأموال طائلة؛ تمهيذا لطرحها 
للاستخدام على مستويات بحثية مختلفة. وهنا قد يتبادر إلى الذهن سؤال عن 
الدافع ely,‏ ترجمة هذا العلم عن اللغة الصينية؟ فما دام أن علم الذخائر 
اللغوية قد نقل إلى الصين عن اللغة الإنجليزية» فلماذا لا ننقل عن اللغة 
الإنجليزية مباشرة؟ والإجابة على هذا السؤال ألخصها في النقطتين التاليتين: 
أولاً: على الرغم من كثرة المتعاملين باللغة الإنجليزية واللغات 
الهندأوروبية والمترجمين عنهاء ففي حدود المعلومات المتوفرة لديء لم يتقدم 
أحد بطرح فكرة ترجمة كتاب عن هذا العلم عن أية لغة من اللغات. ويرجع 
السبب في ذلك إلى عدم وجود قسم علمي متخصص للغويات الحاسوبية في 
الجامعات المصرية؛ مع ندرة الكوادر المتخصصة في هذا المجال في مصرء 
والذين تتلقفهم الدول الأجنبية فيذهبون للبحث في الجامعات الأجنبية GA‏ من 
البيئة المحلية غير Agel‏ للعمل العلمي المشضبط في مجال اللغويات 
الحاسوبية؛ الأمر الذي أدى إلى وجود حالة من التضارب المفهومي 
والاصطلاحي في مؤلفاتنا اللغوية الحديثة فيما يتعلق بمنهجيات هذا العلم 
وأهميته وطرق توظيفه في البحث اللغوي التطبيقي. ومن وجهة ‘GH‏ 
يُعْتَبّر هذا الوضع أحد أسباب تراجع حال البحث اللغوي في اللغة العربية 
til‏ اللغويين لدينا إلى اتخاذ موقف الحاكي | 
عن تجارب الدول Ld‏ يتعلق بعلم اللغة الحديث» بدلا من she‏ المشهدء 
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وتولي مسئولية Jeil‏ والتطبيق؛ وذلك باستثناء عدد قليل من الباحثين CAN‏ 
يعملون بشكل منفرد. وذلك على خلاف ما يحدث على صعيد اللغات 
الأخرى. بالإضافة إلى eld‏ تنعدم التطبيقات اللغوية النابعة من احتياجاتتا 
الواقعيةء الأمر الذي أدى إلى حالة من التبعية الدائمة للشركات الأجنبية في 
كل ما يتعلق بالتطبيقات اللغوية التقنية التي تتعامل مع اللغة العربية سواء 
على مستوى مشروعات البرمجيات الحاسوبية التي تتعامل مع اللغة الطبيعية؛ 
أو على مستوى التعامل المتقدم باللغة العربية على محركات البحث عبر 
الشبكةء وما إلى ذلك من تطبيقات حققت نتائج غير مسبوقة في لغات أخرى. 
ثانيًا: إن النقل عن اللغة الصينية ليس كما يتبادر إلى ذهن العامة من 
أن الصين هي تلك الدولة البعيدة التي تنتمي إلى دول العالم الثالث» التسي 
fas‏ لنا "فوائيس رمضان" والسلع رخيصة الثمن "المضروبة"؛ أو تلك 
الدولة التي تمتلك لغة صعبة مفرداتها عبارة عن مجموعة هائلة من الرسوم 
توقفت عن النمو وملاحقة ركب التطور اللغوي منذ مئات القرون» وما إلى 
ذلك من مفاهيم مغلوطة مرجعها إلى توجهنا الدائم بأنظارنا إلى الغرب» 
وتمحور اهتمامنا في التعلم من ذلك المكان الذي تغرب فيه الشمسء علمًا بأن 
الشمس تشرق دائمًا من الشرق. إن اللغة الصينية هي أثمن ما تملكه تلك 
الدولة البعيدة الغنية بمواردها البشرية التي تجعل تجربة النقل عنهم تجربة 
ثرية على الرغم من صعوبتها بل استحالتها في بعض الأحيان إذا ما قورنت 
بلغات أخرى كالإنجليزية. ولكن ما يزيد التجربة ثراءَ هو نقل ذلك الفهم لعلم . 
الذخائر اللغوية لدى الصينيين الذين نجحوا بالفعل في معالجة قضايا شائكة 
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أصعب ما تكون مقارنة بما تعانيه اللغات الأخرى. فقد كانت تجربتهم في 
معالجة اللغة الصينية اعتمادًا على الذخائر اللغوية في المقام الأول» ثم 
٠‏ انطلقت المراكز البحثية والجامعات بقوافل من الباحثين وأعداد هائلة من 
المؤتمرات المتخصصة:؛ وفي النهاية توصلوا إلى توطين مفهوم ale‏ الذخائر 
اللغوية. الأمر الذي قادهم إلى التوصل إلى حلول جذرية لمشكلات المعالجة 
الآلية للغة الصينية الطبيعية على جميع الأصعدة على الرغم من صعوبة 
لغتهم؛ ولذلك أرى أن تجربة النقل عن اللغة الصينية فيها من الثراء ما لا 
يمكن أن يوجد إذا نقلت عن الإنجليزية صاحبة الفكرة الأساسية. 

فالصينيون نجحوا في توطين علم الذخائر اللغوية وتوظيفه بشكل 
ehe‏ وأنتجوا من خلاله التطبيقات الحاسوبية التي i‏ عن هويتهم الذاتية 
في حل الإشكاليات ذات الخصوصية اللغوية» وعلى رأسها التمييز الآلي 
لحدود الكلمات في النصوص التحريرية المكتوبة باللغة الصينية» أو التمييز 
الآلي للغة التحريرية سواء المكتوبة بحروف مطبعية أو بخط اليد وأنظمة . 
إدخال اللغة إلى الحاسب الآلي» أو إدارة الاستعلامات المتقدمة باللغة الصينية 
عبر ASLAN‏ أو التواصل بين العنصر البشري والآلةء وما إلى ذلك؛ الأمر 
الذي (So‏ الصينيين من إضافة بصمة واضحة المعالم في الوعاء المعرفي 
لعلم الذخائر اللغوية. 

ومن هنا Ugh‏ لدي الدافع الأول لمبادرة توطين هذا العلم في اللغة 
العربية. مما جعلني أتحمس لمبادرة ترجمة هذا الكتاب عن اللغة الصينية بعد 
ما شاهدته في أثناء تعاملي مع الصينيين العاملين في مجال اللغويات 
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الحاسوبية في رحلات علمية مختلفة إلى الصين من اهتمام بحثي ومتابعة 
لأحدث التطورات العالمية في علم الذخائر اللغوية. بالإضافة إلى أن اللغة 
الصينية هي اللغة التي أتخصص في الترجمة منها وليست الإنجليزيةء فضلاً 
عن السبب الذي سبق ذكره من عدم مبادرة العاملين في الترجمة عن 
الإنجليزية أو اللغات الأخرى وما أكثرهم بتقديم هذا العلم وترجمة أحد هذه 
المؤلفات وتوطين مفهوم علم الذخائر اللغوية في الوعاء المعرفي للغبة 
العربية. وهذا الكتاب هو الكتاب الأول الذي تتم ترجمته إلى اللغة العربية في 
مجال علم الذخائر اللغوية» على أمل أن تؤدي تجربة الترجمة إلى نقل المزيد 
من المؤلفات عبر لغات أخرىء وإلى التأليف باللغة العربية. وقد رأيست 

بنفسي أنه بقدر اهتمام الدول بعلم الذخائر اللغوية وتطوير آلياته» بقدر تطور 
ابحث اللغوي التطبيقي للغاتها. وبقدر الفهم المتعمق لأي alle‏ من علماء 
. اللغويات لمفاهيم هذا العلم ومنهجياتهء وآلياته: بقدر تعاظم ما يمكن أن يصل 
إليه من نتائج تطبيقية. وبقدر ما تهتم به الدول» بقدر ما ترقى لغاتها إلى 
مستوى الدخول في عصر المعلومات. 

والمُؤلف الرئيس لهذا الكتاب هو الأستاذ الدكتور خوانغ تشانغ نينغ؛ 
أحد أشهر علماء اللغة الحاسوبيين في الصين. ولد خوانغ تشانغ نينغ عام 
۷ في مقاطعة جوانغ دونغ» وفي عام ١15١‏ تخرج في aud‏ المحركات 
الكهربية بجامعة تشينغ خوا ببكين. وفي عام ۱۹۸١‏ سافر في بعثة إلى 
جامعة ييل (Yale-University)‏ بالولايات المتحدة الأميركية لمدة cale‏ وعمل 
في التدريس لمدة عام بجامعة العلوم والتكنولوجيا بهونج كونج عام VAAN‏ 
وفي عام ٩۱۹۹ء‏ عمل مدير لمركز أبحاث شركة ميكروسوفت في الصين. 
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Es)‏ إليه الصينيون باعتباره ممهد الطريق لتوطين علوم المعالجة الآلية 
للغات الطبيعية في الصين . في سبعينيات القرن العشرين؛ ذاع صيته كأستاذ 
متميز في جامعة تشينغ خوا عندما ألف ide‏ ((دوائر الترانزستور))؛ حيث 
حقق هذا المقرر مبيعات زادت عن مليون نسخة داخل الصين. وبعد ذلك» 
قَتَمَّ ترجمة لكتابين أحدثا أثرًا Mus‏ في المجتمع العلمي الصيني هما كتاب 
((مبادئ الذكاء الاصطناعي))؛ وكتاب ((البرمجة باس تخدام لغة ((LISP‏ 
ليملا بذلك الفراغ العلمي الموجود في تلك الفترة. 

وقد وصل خوانغ تشانغ نينغ إلى قمة أخرى من قمم الشهرة العلمية 
عندما عمل في حقل الدراسات المتغلقة بعلم معالجة اللغات الطبيعية؛ حيث 
بدأ بتنظيم مجموعات بحثية Jala‏ الصين وخارجها في هذا المجال» ثم تولى 
رئاسة العديد من المؤتمرات الدولية وهيئات المبرمجين في مجال المعالجة 
الآلية للغات الطبيعية. ويتولي خوانغ تشانغ نينغ الآن رئاسة تحرير ((المجلة 
العلمية للمعلوماتية الصينية))؛ بالإضافة إلى كونه مُحكمًا وعضو هيئة تحرير © 
العديد من المجلات العلمية الدولية مثل ((المجلة التخصصية في معالجة 
المعلومات باللغات الآسيوية (ACM‏ بالولايات المتحدة الأميركية» و((النشرة 
الدورية لجمعية معالجة المعلومات باللغة الصينية واللغات الشرقية)) 
بسنغافورة» ومجلة ((معالجة اللغات الظبيعية)) باليابانء ومجلة ((دراسات 
نقدية حول علم اللغة في الصين)) بهونج كونج» ومجلة ((علم اللغة الحاسوبي 
ومعالجة اللغات الصينية)) بتايوان(". 


(Y)‏ لمزيد من المعلومات عن المؤلفء انظر الموسوعة الصينية على الرابط التالي: 
http://baike.baidu.com/view/1615502.htm‏ 
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وقد شارك خوانغ تشانغ نينغ في مشروعين بحثيين في إطار الخطة 
الخمسية السابعة للحكومة الصينية عام ١۱۹۸ء‏ هي: مشروع "الفهم الآألي 
للغات الطبيعية والبرامج البينية بين الإنسان والآلة" وكان ذلك في نطاق 
مشروعات العصف الذهني» ومشروع 'تقنيات الفهم الآلي للنصوص 
العسكرية" في نطاق المشروعات البحثية المستقبلية للدفاع الوطني؛ بالإضافة 
إلى مشروع "نظام للترجمة الآلية بين اللغتين الصينية واليابانية" بالتعاون بين 
جامعتي تشينغ خوا ونانكين الصينيتين. وقد حصل هذا المشروع على المركز 
الثاني في مجال تطوير العلوم والتكنولوجيا من لجنة التعليم بالحكومة الصينية. ` 

وقد سبق أن تولى خوانغ تشانغ نينغ رئاسة الفريق البحثي الصيني 
الذي كلف من وزارة الصناعات الإلكترونية الصينية للمشاركة في مشروع 
الترجمة الآلية متعدد اللغات» الذي رصدت له الحكومة اليابانية خمسين 
مليون دولار أميركي عام ١11٠‏ لتطوير نظام للترجمة الآلية بين لغات 
خمس دول آسيوية هي: اليابان» والصينء وماليزياء وسنغافورةء وتايلاند. 

وفي عام 15355 شارك في مشروع بحثي للترجمة الآلية بين اللغتين 
الإنجليزية والصينية ممثلا عن جامعة تشينغ خوا الصينية بالتعاون مع شركة 
DEC‏ الأميركية. كما نجح مع فريقه البحثي في بيع حقوق الملكية الفكرية 
لعدد من النتائج البحثية لشركتي آي بي IBM al‏ وميكروسوفت „Microsoft‏ 

ينقسم كتاب ((علم الذخائر اللغوية)) إلى خمسة أبواب وملحق 
للاختصارات وقائمة مراجع. 
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الباب الأول: عبارة عن مقدمة تعريفية بالذخائر اللغويةء وماهية علم 
الذخائر اللغوية» وتاريخ تطور العلم وآفاقه المستقبلية» والدور الذي يلعبه 
الحاسب الآلي في علم الذخائر اللغويةء والموضوعات البحثية التي يهتم بها 
هذا العلم. 

الباب الثاني: يتحدث عن تصميم الذخائر اللغوية وتطويرهاء من حيث 
بعض مشكلات جمع المادة اللغويةء وكيفية بناء ذخيرة لغوية:» وأهم 
الموضوعات التي ينبغي أخذها بعين الاعتبار حتى تكون ال ذخيرة A‏ 
للواقع اللغوي» بالإضافة إلى عرض لأنواع الذخائر اللغويةء وتعريف بأشهر 
الذخائر اللغوية على مستوى العالم والصين. 

البابْ الثالث: يتطرق إلى معالجة الذخائر اللغوية والتقنيات المستخدمة 
في إدارتهاء وطرق إدارة الاستعلام Jala‏ الذخائر اللغويةء وتوظيف علم 
clea‏ غلم AEA‏ اللغوية y‏ ر برمجات KENTE PEE‏ 
برمجية كولوكيت Collocate‏ وتيبيكال Typical‏ بالإضافة إلى ترميز 
لائر ye‏ من حت pla Nyce aN) pel‏ امير ف هة 
اللنصوص اللغوية على كل من المستويات النحوية والدلاليةء والترميز على 
Jee: copies‏ 

الباب الرابع: يتحدث عن العلاقة بين علم الذخائر اللغوية وعلم AAN‏ 
من حيث استقدام منهجية الذخائر اللغوية في الدراسات اللغوية على مستوى 
البحوث المتعلقة بعلم المفرداتء والنحوء والدلالةء بالإضافة إلى علم اللغة 
التداولي وتحليل الخطاب؛ فضلاً عن تعليم اللغات وعلم المعجمية. 
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الباب الخامس: يتناول تطبيقات منهجية الذخائر اللغوية في علم اللغة 
الحاسوبي» من خلال دراسة الأبحاث المتعلقة بإزالة اللبس الدلالي» 
والدراسات المتعلقة بتمييز التعبيرات اللغوية الاسمية وما إلى ذلك. 

لم تكن تجربة نقل كتاب ((علم الذخائر اللغوية)) عن اللغة الصينية 
تجربة سهلةء لعدة أسباب أهمها عدم وجود وعاء معرفي سابق باللغة العربية 
في الترجمة والتأليف في هذا المجال» الأمر الذي جعل رحلة الترجمة بكل ما 
تحتويه من مصطلحات وما تشير إليه تلك المصطلحات من مفاهيم علمية 
Hy‏ شاقا ومحفوفًا بالمخاطر؛ خشية الإخفاق في التعبير عن المصطلح بلغة 
مناسبة سهلة الفهم› Susi‏ عن أن أي خلل في الصياغة من شأنه أن يؤدي 
إلى خطأ في التوجيه لا يستطيع المترجم تحمل عواقبه العلمية. لذلك أنتهز 
هذه الفرصة للتأكيد على ضرورة المراجعة ومداومة الفعل وتوظيف ما ورد 
بالكتاب من مصطلحات ومفاهيم عن طريق الممارسة واستمرار A ap fll‏ 
لدفع المصطلحات والمفاهيم الواردة بالكتاب إلى مزيد من السلاسة والتداول. 
ومن ضمن أسباب الصعوبة أيضنًا أن النقل قد تم عن اللغة الصينية وما 
atti}‏ هذا Ji‏ من مواجهة بعض المشكلات الخاصة باللغة الصينيةء التي 
ليس لها وجود في لغات أخرى وبخاصة اللغة العربيةء ما أدى إلى استغراق 
الكتاب وقتا مضاعفا Le‏ البدايةء إلى أن تمكنت من 
تدشين المضطلحات الجوهرية لهذا العلم الوليد في اللغة العربية. وقد ساعدني 
في التغلب على هذه المشكلات عدد من القراءات الإثرائية باللغتين الصينية 
والإنجليزية» فضلاً عن ممارسة الإنتاج العلمي والبحثي في بعض القضايا 
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التي يتناولها الكتاب بالتوازي مع تقدم العمل في الترجمة. فقد كان إذن 
لتخصصي في الترجمة واللغويات الحاسوبية عظيم الأثر في سبر أغوار علم 
الذخائر اللغويةء وتسهيل معالجة بعض المفاهيم AS fall‏ والمنهجيات 
iii‏ وصياغة المصطلحات sad‏ عنها بأكبر قدر من الوضوح؛ حتى 
يتم توسيدها في الوعاء المعرفي للغة العربية؛ إيمانا من المترجم بأهمية 
العلوم البينية وتداخل التخصصات اللغوية (كاللغويات الحاسوبية وعلم 
الذخائر اللغوية) في العمل على تكامل البحث اللغوي التطبيقي. 
وسعيًا إلى توسيع دائرة فائدة القارئ العربي من الكتاب قدمت بعسض 
الإضافات في النسخة المترجمة تتمثل فيما يلي: 
-١‏ مقدمة بقلم المترجم للتعريف بأهمية الكتاب والمؤلف. 
؟- عدد من الحواشي استعنت بها لشرح بعض المفاهيم الخاصة 
بطبيعة اللغة الصينية أو التعريف ببعض العلماء الذين لهم إسهامات 
في مجال الذخائر اللغوية أو اللغويات الحاسوبية. 
*- فهرس باللغتين الصينية والعربية يحتوي قائمة المصطلحات 
الواردة في الكتاب الأصلي مع إضافة المعنى المقابل بالإنجليزية 
لعدد من المصطلحات الأساسية في هذا التخصص. لإفادة الباحثين 
والمترجمين العاملين في هذا المجال» ولتكون بداية لتوطين تلك 
المصطلحات في الوعاء المعرفي للغة العربية» من خلال مداومة 
العمل على تطويرها وتنميتها واستخدامها بين المتخصصين. 


4 - ترجمة eal pall‏ الصينية التي استعان بها مؤلف الكتاب لتعريف 
القارئ بمستوى ما توصل إليه الصينيون في هذا المجال. 
5- ترجمة للأمثلة التطبيقية الصينية الموجودة في الكتاب وقدتم 
وضعها دائمًا بين علامتي تشصيص» لزيادة مفهومية النص 
المترجم. 
وفئة القراء المستهدفة من ترجمة كتاب ale”‏ الذخائر اللغوية" هم 
العلماء والباحثون المتخصصون في مجال اللغويات الحاسوبية على وجه 
الخصوصء والعلماء والباحثون في حقل اللغويات التطبيقية بصورة عامة»ء 
وخاصة في مجالات ale‏ المعجميةء وعلم المسصطلح., والترجمة» وتعليم 
اللغات» وما إلى ذلك. كما يستهدف الكتاب المتخصصين في الدراسات 
الأدبية؛ حيث يمكنهم الاستعانة بمنهجيات هذا العلم في دراساتهم النقدية 
والأسلوبية اعتمادًا على تحليل ذخائر لغوية Anal‏ ويمكن اعتبار هذا الكتاب 
Lea ye‏ للباحثين المشتغلين في بحوث لغوية تطبيقية» أو بحوث أدبية تستعير 
من اللغويات أدوات التحليل والعرض؛ حيث يساعد هذا الكتاب على ترسيم 
مُخطّط علمي منضبط يمكن أن auch‏ عليه الباحثون في عملهم. 
وأود التأكيد على أن هذا العمل eh‏ بالنسبة CY‏ نقطة البداية لسلسلة من 
الأعمال المترجمة التي أحلم بتوطينها في اللغة العربية عن علم اللغة 
الحاسوبي بقضاياه وتوجهاته البحثية المختلفة. إن ترجمة كتاب "علم الذخائر 
اللغوية" بالنسبة إلى هذه الأعمال هو الخطوة الأولى نحو توطين تلك العلوم 
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باللغة العربية. على أمل أن يحظى هذا الجهد بقبول حسن» وأن ag‏ في 

تعريف القارئ العربي بعلم الذخائر اللغوية وكيفية الاستفادة منه من قبل 

الباحثين في بناء ذخائر لغوية عامة وخاصة تساعد على دراسة اللغة العربية 

في الاتجاه التطبيقي والتحليق بها إلى آفاق التطبيق» حتى تخرج هذه Aali‏ 

العريقة من مئباتها البحثي والعملي الذي تسبب فيه أهلهاء وتنحصر الفجوة 
بيننا وبين من سبقوناء وحتى تعود الشمس لتشرق من الشرق. 

أ.د./ هشام موسى المالكي 

أستاذ الترجمة واللغويات الحاسوبية 

قسم اللغة الصينية 

كلية الألسن- جامعة عين شمس 


القاهرة - أبريل - ۳٠١۲م‏ 


الباب الأول 
مقدمة ومدخل إلى الموضوع 


أصبح ale"‏ الذخائر اللغوية (Corpus Linguistics)‏ بالفعل فرعا من 
فروع ale‏ اللغة. وإجراء الأبحاث القائمة على الذخائر اللغوية لم يعد مقتصر'ا 
على خبراء علوم الحاسب فقطء بل أصبح لهذا العلم تأثير YF‏ على جميع 
المجالات البحثية في علم اللغة". هذه العبارة ذكرآت في مقدمة الكتاب القيّم 
الذي ail‏ تمان و اكرون عام yy pap fain VI Audie VAAN‏ ميقن :اا 
على Daa‏ عالم اللغة ليتش (Leech)‏ مؤسس علم الذخائر اللغوية. وقد 
تزايدت الإشارات والنصوص المعبرة عن المضمون نفسه في السنوات 
الأخيرة في المؤلفات اللغوية الشهيرة التي تتناول منهجية العمل في البحوث 
اللغوية وأساليبهاء وأصبح هذا المصطلح من المصطلحات المتعارف عليها 
لدى جميع العاملين في علوم اللغةا!!. 


ies عمل أستاذًا للغويات‎ VAT من مواليد‎ (Geoffrey Leech) جيفري ليتش‎ )١( 
eY حتى‎ ١575 الإنجليزية الحديثة بجامعة لانكاستر البريطانية في الفترة من‎ 
a .۲ ويعمل أستاذا متفرغا بقسم اللغويات واللغة الإنجليزية بالجامعة نفسها منذ‎ 
الآنء كما أنه عضو بالأكاديمية النرويجية للعلوم والآداب. (المترجم)‎ 
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الفصل الأول 
الذخائر اللغوية وعلم الذخائر اللغوية 


Ly‏ بالذخيرة (Corpus)‏ ذلك الكيان J)‏ قاعدة البيانات) الذي تُخزّن 
بداخله النصوص اللغوية. وقد جرى العرف بين علماء اللغة أن مصطلح 
ذخيرة لغوية يُقصتد به ذلك العدد الهائل من الشواهد اللغوية الطبيعية الذي 
يُستخدم كأساس لإجراء البحوث اللغوية. والذخيرة اللغوية لا تقق صر فقط 
على اللغة التحريرية؛ ولكنها تحتوي Cal‏ على عينات صوتية من اللغة 
الشفهية» وقد تقتصر الذخيرة على أحد مستويات اللغة فقطء سواء المستوى 
الكتابي أو المستوى الشفهيء هذا بالإضافة إلى أن هذا المفهوم يُستخدم أيضنًا 
للدلالة على اللغة في حالة ثابتةء أو اللغة في حالاتها المتغيرة على de‏ سواء. 
وقبل اختراع الحاسب الآلي كان الباحثون -على وجه الخصوص مؤلفو 
المعاجم اللغوية - يمتلكون ذخائر لغويةء إلا أن نطاق تلك الذخائر كان 
محدوذًا للغاية؛ ولذلك كان من الصعب تكوين تيار علمي يمثل هذا -المصطلح 
في الأوساط اللغوية. ولكن منذ حوالي أربعين ke‏ أصبح هذا المسصطلح 
يقترن دائمًا بالمادة اللغوية الطبيعية التي OS‏ عن طريق الحاسب الآليء 
التي نخدم في الدراسات اللغوية والتطبيقات الخاصة بهندسة اللغة. ومع 
تطور الحاسب وتقنياته تطورت الذخائر اللغوية وتعددت أشكالها وتضاعف 
حجمها؛ بالإضافة إلى تنوع أغراض استخدامها وتطبيقاتها. وفي الوقت ذاته 
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ظهرت أعداد كبيرة من البرمجيات المتخصصة التي psi‏ في حفظ 
نصوص الذخائر اللغوية واسترجاع المعلومات من تلك النصوص ومعالجتها. 
وتطورت الذخائر اللغوية الإلكترونية بصورة سريعة لتصبح مصدرا مهما 
من مصادر البحث اللغوي. وقد تأسست العديد من الذخائر اللغوية فائقة 
الحجم على مستوى العالم» منها ما هو عالمي؛ ومنها ما هو محلي على 
مستوى الجامعات ومؤلفي ودور نشر المعاجم. هذا بالإضافة إلى أن التطور 
السريع للحاسبات الشخصية وانخفاض تكلفة وسائط تخزين البيانات قد أتاح 
الفرصة أمام كل باحث لتكوين ذخائر لغوية تتلاءم مع احتياجاته وميوله البحثية. 
وعلى الرغم من أن هناك تاريخا ملموسًا لعلم الذخائر اللغوية» فإنه لم 
يتم الاتفاق على تعريف محدد لهذا العلم حتى الآن. وفيما يلي نستخلص 
تعريفين لعلم الذخائر اللغوية: 
التعريف الأول: alo‏ الذخائر اللغوية (Corpus linguistics)‏ هو ذلك 
العلم الذي يهتم بدراسة اللغة على أساس من أمثلة لغوية واقعية تمد مسن 
واقع الحياة الطبيعية للجماعة اللغوية. (ماكنري وولسون PV )۱۹۹٩‏ 
التعريف الثاني: علم الذخائر اللغوية هو ذلك العلم الذي ينطلق مسن 
الوصف اللغوي للنصوص اللغوية أو يتخذ من الشواهد اللغوية الواقعية داخل 
النصوص نقطة انطلاق لتحديد فرضيات البحث اللغوي. (كريستال OA‏ 
ويمكننا أن نلاحظ من خلال التعريفين السابقين أن مصطلح علم 
الذخائر اللغوية" باعتباره مصطلحًا علميّاء يختلف اختلاقا جوهريًا عن ale”‏ 
النحو" و"علم الدلالة" في كونه لا يهتم بالنظر “إلى جانب واحد من جوانب 
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اللغة؛ ولكنه منهجية بحث لغوية تعتمد على نصوص اللغة الطبيعية في 
دراسة الظواهر اللغوية. وفي الحقيقة أن هذا العلم يضم توجهين أساسيين: 
أولاً: تهيئة اللغة الطبيعية وترميزها لخدمة البحوث اللغوية. 
ثانيًا: إجراء الدراسات اللغوية وتطوير التطبيقات اللغوية على الذخائر 


at ° 


بعد تهيئتها وترميزها. 


الفصل الثاني 
تاريخ تطور علم الذخائر اللغوية 


يرجع تاريخ علم الذخائر اللغوية تباعتباره أحد المنهجياث التي تترس 
اللغة الطبيعية- إلى القرن الماضيء وترأجع الوثائق!!! التي ذكرت ذلك العلم 
إلى فترة GS‏ نظرية النحو التحويلي التوليدي لناعوم تشومسكيء ومنذ ذلك 
الوقت حتى الآن يمكننا تقسيم تاريخ ذلك العلم إلى ثلاث Mal yo‏ 
١‏ البدايات الأولى لعلم الذخائر اللغوية (corpus linguistics)‏ 

كان ذلك قبل النصف الأول من خمسينيات القرن العشرين» ويُقصد 
بذلك جميع البحوث اللغوية التي كانت تنطلق من المواد اللغوية الطبيعية في 
فترة ما قبل ظهور نظرية النحو التحويلي التوليدي لتشومسكيء ويمكن تمثيل 
التطبيقات التي نتجت في تلك المرحلة من خلال النقاط التالية: 

أ) اكتساب اللغة 

هذا الحقل من أول المجالات التي استخدمت فيه الذخائر اللغوية 
كوسيلة من وسائل البحث اللغوي. ففي سبعينيات القرن التاسع عشرء ظهر 
في أوروبا أول تيار من الدراسات يبحث في طرق اكتساب الأطفال للغة. 
وفي الوقت ذاته» كانت جميع المواد اللغوية موضع الدراسة هي تلك 
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اليوميات التي Gh‏ حديث الوالدين للأبناء sy‏ هذا الحديث مع تقدم 
الأبناء في السن. وكما هو معروف كانت تلك اليوميات هي المادة الأولية 
التي اعتُبرت أحد المصادر اللغوية التي بنى عليها العلماء فرضياتهم اللغوية 
tid‏ بريار H Preayer‏ وستيرن ca y y I Stern‏ بالإضافة إلى أنها ما 
زالت ye‏ أحد المصادر اللغوية التي acing‏ عليها الباحثون حتى يومنا هذا. 
ومنذ ثلاثينيات القرن العشرين؛ قدم علماء اللغة وعلماء النفس العديد من 
الأنماط اللغوية للأطفال في أعمار مختلفة. وقد وُْضعت تلك الأنماط اللغوية 
بصورة أساسية اعتمادًا على كميات هائلة من المواد اللغوية التي SAG‏ اللغة 


الطبيعية للأطفال. 
ب) علم اللهجات 


ale Ls J‏ اللهجات منذ نشأته ارتباطا وثيقا بالذخائر اللغويةء وقد ولد 
هذا العلم من رحم ale‏ اللغة التاريخي المقارن الذي نشأ في القرن التاسع 
عشرء وكانت الأسباب الأولى لنشأة هذا العلم تنحصر في استخدام الوسائل 
المباشرة لتسجيل الاختلافات الصوتية داخل اللغة لعرض خريطة اللهجات 
في لغة ما. "وكان الباحثون في البداية يحملون في أيديهم كراسات لتدوين 
ملاحظاتهم» ثم تلى ذلك استخدام أجهزة التسجيل الصوتيء وكانوا os‏ أو 
oy sland‏ كل ما يعترضهم من مواد لغوية تعبّر عن اختلاف اللهجات. وهذه 
المادة ما زالت bac bea ye‏ لبعض الباحثين غير المتفرغين» ولها قيمة 
واضحة في مجال دراسة توزيع المفردات داخل اللهجات. 
-(francis,1980)‏ 
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ج) تعليم اللغات 

fries وفرايز‎ Traver وترافر‎ Bonger Pope pied 
هم أول من استخدم الذخائر اللغوية في دراسة أساليب تعليم اللغفة‎ (14£Y) 
من وجود‎ )۱۹۹۲( Kennedy وتعلمها. وهذا يتطابق مع ما ذكره كينيدي‎ 
ارتباط وثيق بين الذخائر اللغوية وتعليم اللغات الأجنبية في الخمسين سنة‎ 
الأولى من القرن العشرين. وقال: إن المصدر الرئيس لقوائم المفزدات‎ 
المستخدمة في تعليم اللغات الأجنبية كان تلك الإحصاءات التي تمت على‎ 
الذخائر اللغوية في اللغات موضع الدراسة. وكان لتلك القوائم فائدة كبرى في‎ 
توجيه عملية تعليم اللغات الأجنبية.‎ 

د) النحو والدلالة 

ali‏ بعض علماء اللغة بتوصيف اللغة اعتمادًا على الذخائر اللغوية مثل 
alle‏ اللغة فرايز (Fries)‏ )140%( الذي قدم وصفا لقواعد اللغة الإنجليزية 
قياسا على دراسة ذخيرة لغوية fEl‏ وهذه المحاولة تسبق ما قام به alle‏ اللغة 
كويرك (Quirk)‏ وغيره في أواخر الثمانينيات لتأليف aa‏ اللغة 
الإنجليزية" بحوالي ثلاثين „Úle‏ 

(一‏ دراسة النظام الصوتي للغة 

يعود استخدام ذخائر اللغات الطبيعية في دراسة النظام الصوتي للغة 
إلى علماء اللغة البنيويين أمثال فريدريك بواس 下 .Boas‏ وإدوارد سابير 
E.Sapir‏ وغيرهماء فقد اهتموا بالعمل في البيئة الطبيعية للغة وأكدوا على 
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ضرورة أن ينطلق البحث اللغوي من اللغة الطبيعية ومن النظرة الموضوعية 
لها. وهذه الآراء كانت حجر الأساس الذي أرسنى دعائم ple‏ الذخائر اللغوية. 
ومع حلول الفترة الأولى من خمسينيات القرن العشرين أصبح المناخ العلمي 
gia‏ للاهتمام بدور الذخائر اللغوية في دراسة اللغة. الأمر الذي شكل تيارًا 
قويًا في الوقت ذاته وخاصة في أميركاء جلى يد زيليك هاريس (Harris)‏ 
وغيره من علماء اللغة البنيويين خلفاء ليونارد بلومفيلد؛ حيث اعتبروا أن 
الذخائر اللغوية هي المادة الأساسية التي يجب أن تنطلق منها دراسات اللغةء 
وكانت رؤيتهم تنصب على أن الشواهد اللغوية التي تقوم على الحدث يجب ٠‏ 
أن تأتي في المرتبة الثانية وأنها لا يُعتمد عليها في بناء النظام اللغوي ويجب 
أن J‏ بقواعد تنطلق CU‏ من الواقع اللغوي. 
" مرحلة النحو التحويلي التوليدي لتشومسكي 

بعد ظهور النظرية النحوية لتشومسكي DI‏ عام ١161‏ وما تلاها مسن 
سلسلة أبحاث لغوية» حدث تغيز جذري في تاريخ تطور ale‏ الذخائر اللغوية 
الذي تحدثنا عنه lille‏ وتحول التيار الأساسي لمنهجيات البحث اللغوي bs‏ 
لذلك من النزعة التجريبية Empiricism)‏ إلى النزعة العقلية 
«("(Rationalism)‏ في دراسة اللغة. ففي تلك الفترة» احتلت نظرية ديكارت 


)1( النزعة التجريبية: مذهب من يقيم المعرفة على ما تدركه الحواس وحدهاء Siy‏ 
وجود مبادئ فطرية في النفس وقوانين صادرة عن العقل. (المترجم) 

(Y)‏ النزعة العقلية: مذهب في الفلسفة يرى أن كل شيء في الوجود مرده إلى العقلء 
ويتخذ من العقل والاستنباط معيار! للحقيقة بدلا من المعايير الحسية. وقد أخذ بهذا 
المذهب ديكارت وهيجل وليبنز في فلسفتهم. (المترجم) 
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العقلية مكان الصدارة» وتراجعت النزعة التجريبية لتصبح كما لو أن ليس لها 
أساس تستند إليه. وبطبيعة الأحوال أنكرت جميع أنواع الذخائر اللغوية التي ' 
تكونت على أساس من النزعة التجريبية. ويعتقد أصحاب المذهب العقلي أن 
le ja‏ كبيرًا من المعلومات اللغوية لدى الإنسان توقيفية موروثة. أما أصحاب 
المذهب التجريبي فيقفون على النقيض من هذا الرأي؛ حيث يعتقدون أن اللغة 
اصطلاحية؛ وأن معلومات الإنسان تدخل إلى عقله Yd‏ عن طريق الحواس» 
ثم تتكون بعد ذلك المعلومات اللغوية عن طريق بعض التصورات البسيطة 
ؤبعض المعالجات التي تتم على تلك التصورات الذهنيةء وأن الإنسان عندما 
يولد لا يكون متمتعًا بالمبادئ اللغوية وأساليب معالجة اللغة. ونظرا إلى 
استقبال نظرية تشومسكي استقبالا حسنا في الأوساط اللغوية» فقد هيمنت 
النظرية العقلية على الدراسات اللغوية على مدى ستينيات وسبعينيات القرن 
الماضي ولمدة ما يقرب من عشرين عاما. | 

وقد تركزت الانتقادات التي وجهها تشومسكي وزملاؤه من علماء 
النحو التحويلي التوليدي للمحاولات الأولى للبحث اللغوي باستخدام الذخائر 
اللغوية. على النقاط التالية: 

أ- وجود أخطاء في أساليب البحث اللغوي المبني على الذخائر 
اللغوية. فقد فرق تشومسكي بين القدرة اللغوية (language‏ 
competence)‏ « و الأداء اللغفو ي ‘(language performance)‏ 
حيث nd‏ الهدف الأساسي من البحث اللغوي يقوم بشكل رئيس 
على القدرة على وضع أنماط للمعرفة اللغوية ji‏ عن الواقع 
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الداخلي لنفس المتحدث» بمعنى تقذيم أنماط القدرة اللغويةء لأننا لا 
نستطيع أن نقدم وصفا وشرحا للمعلومات اللغوية لدى المتحدث إلا 
عن طريق القدرة اللغوية. أما الاستخدام اللغوي فهو الدليل 

. الظاهري على القدرة اللغويةء وهو دائمًا ما يتخطى حدود تأثير 
التحولات التي تحدث على العناصر الأساسية المُكوّنة للغة. ومن 
هنا فلا يمكن أن يكون الاستخدام اللغوي معبرًا بصورة كاملة عن 
القدرة اللغوية. ويعتقد تشومسكي Cal‏ أن جوهر المعلومات اللغوية 
ما هو إلا مجموع العناصر المُكونة للغة؛ وأن أنماط التجريب التي 
تمخضت عن دراسة الذخائر اللغوية لا تقدم إلا تفسيرًا Gi jm‏ للقدرة 
اللغوية. ومن هناء نجد أن هذا الأسلوب في دراسة اللغة لا يتمتع 
بالقوة الكافية. 

ب- عدم كفاية المادة اللغوية؛ حيث اكتشف تشومسكي لأول مرة في 
كتاب (النظرية النحوية) أن قواعد تركيب التعبيرات في اللغة 
الإنجليزية تتسم بالاضطرادء وهذا الاضطراد feb‏ عن أن الجمل 
في اللغات الطبيعية ليس لها حدود؛ وبمعنى آخر أن المواد اللغوية 
ليس لها نهاية ولن تصل إلى حد الاكتمال أبذا. وقد يرت هذه 
الرؤية لعلماء اللغة التحويليين اتجاه البحث اللغوي الذي ساد طوال 
خمسينيات القرن الماضي عند elle‏ اللغة البنيويين. Lady‏ يقرب 
من عشرين سنة بعد ذلك» يمكننا القول: إن جميع علماء اللغة قد 
اتبعوا ذلك النهج في دراسة اللغة. وساد أسلوب استخدام الذخائر 
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اللغوية وفقا للرؤية الجديدة في بحث اللغة بصورة هائلة. ولكن 
على الرغم من ذلك فإن البحث في علم الذخائر اللغوية لم يصل 
إلى نهايته» بل ظهر العديد من العلماء الذين اتسموا بشجاعة علمية 
غير عادية وتحملوا أعباءء لا حصر لها في سبيل تطوير علم 
الذخائر اللغوية. ففي عام ۹١۹٠ء‏ قام lle‏ اللغة كويرك (Quirk)‏ 
ببناء ذخيرة لغوية بعنوان: (دراسة مسحيّة لطرق استخدام اللغفة 
الإنجليزية). وفي الوقت ذاته» بدأ كل من فرانسيز (Francis)‏ 
وكوسيرا (Kucera)‏ العمل في مشروعهم الضخم لبناء الذخيرة 
اللغوية الشهيرة التي عرفت باسم براون Brown‏ التي استغرق 
بناؤها ما يقرب من عشرين عامًا حتى اكتملت تماماء وبالإضافة 
إلى ذلك بدأ alle‏ اللغة جان سقارتفيك (Jan Svartvik)‏ في عام 
٥‏ بناء ذخيرة لندن النصية المعروفة باسم ذخيرة لندن- 
لوند (London-Lund Corpus)‏ على أساس من الذخيرتين 
اللغويتين السابقتين» بالإضافة إلى أنه توصل al‏ إلى بناء ذخيرة 
لغوية iSi‏ عرفت باسم SEU‏ وبناءً على تلك الجهود رأى ليتش 
(Leech:1991)‏ أن: "مصادر دراسة اللغة الشفهية الإنجليزية لا 
يمكن منافستها حتى COW!‏ وبالإضافة إلى ذلك نجد أن التعاون الذي 
تم بين خبراء الحاسب وعالمي اللغة فرانسيز وكوسيرا في جامعة 
براون قد تمخض عنه بناء أول ذخيرة لغوية يقرأها الحاسب في 
عام VAT)‏ وقد استخدمت تلك الذخيرة اللغوية عينات من اللغة 


35 


الإنجليزية تحت موضوعات مختلفة» ووصل نطاق تغطيتها إلى 
حوالي مليونٍ كلمة بغرض دراسة النموذج الأميركي من اللغة 
الإنجليزية. sey‏ هذه الذخيرة اللغوية بمثابة حجر الأساس لعلم 
النخائر اللغوية الذي تأسس في ثمائينيات القرن الماضي. 
۳ فترة ازدهار ale‏ الذخائر اللغوية وانطلاقه 
منذ تمانينيات القرن الماضي وعلى مدى ما يقرب من عشرين عامًاء 
تطور علم الذخائر اللغوية بصورة كبيرة ونما نموا متسارعاء وقد تمثل ذلك 
في النواحي التالية: 
أ) توالي ظهور الجيل الثاني من الذخائر اللغوية 
فمنذ ثمانينيات القرن الماضي» ظهرت مجموعة كبيرة من الذخائر 
اللغوية أشهرها الذخيرة المعروفة باسم كوبويلد «Cobuild‏ وعلى الرغم من 
كون تلك الذخائر اللغوية مختلفة فيما بينها من حيث الحجم وأسلوب التصميم 
والهدف» فإن غالبيتها كان يعتمد على تقنية التمييز .الكهروضوئي للحروف 
والمعروفة. بتقنية (NEDEM‏ ومن ثُمَّ تمكن العلماء من تحويل النصوص 
tal‏ إلى الشكل الرقمي وتحريرها من الأسلوب اليدوي الشاق الذي يعتمد 
كتابة النصوص باستخدام لوحة المفاتيح. إن الذخائر اللغوية التي ظهرت في 
تلك الفترة لم تتضاعف من Cus‏ الحجم فحسب» بل زادت سرعة بنائها؛ ومن 
2 اصطلح على تسمية تلك الذخائر بالجيل الثاني من الذخائر اللغوية. وتشير 


(1) Korowai Data Entry Machine. 
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دراسة إحصائية غير كاملة للعالم اللغوي الأميركي )93 )39 (Edwards)‏ من 
جامعة كاليفورنيا - بركلي تشر ها عام 1447 أن عدد الذخائر اللغوية التي 
طرحت للاستخدام في ثمائد نينيات القرن الماضي قد زاد عن خمسين ذخيرة؛ 
ويمكن تقسيمها حسب اللغة كما يلي: 
الإنجليزية سه 24 للفرنسية —< 4 一 4 2 < 一 人 站‏ < 2 
الألمائية حه 4 ٠.‏ الإضيائية-» 2 لفنلنبية ——< 2 لسويدية سه7 
وبالإضافة إلى ذلك نجد أن لغات مثل البرتغالية واليوغوسلافية وغير 
ذلك من اللغات قد تتابعت في إنشاء ذخائر لغوية. ومن بين أعداد الذخائر 
سالفة الذكر نعرض بالتفصيل بعضنا منها اتسم بالتميز وكبّر الحجم» كما يلي: 
)١(‏ ذخيرة لانكاستر- أوسلو - برجن 
(Lancaster — Oslo ¬ Bergen Corpus) |‏ 
تسمى هذه الذخيرة اختصارًا باسم ذخيرة لوب LOB‏ وقد أسسها فريق 
عمل تحت قيادة العالم اللغوي ليتش leech‏ بجامعة. لانكستر الإنجليزية 
الشهيرة بغرض دراسة اللغة الإنجليزية. . وقد تم تصميم هذه الذخيرة باستخدام 
أسلوب مشابه لأسلوب بناء ذخيرة براون من حيث تقسيم المادة؛ وأسلوب 
انتقاء العينات. وقد تم الانتهاء من العمل في هذه الذخيرة عام AAAY‏ 
وتتكون هذه الذخيرة من حوالي خمسمائة عينة Ay gal‏ يصل حجم كل عينة 
إلى ألفي كلمة. وبذلك يصل إجمالي حجم النصوص التي تحتويها تلك 
الذدخيرة ة إلى ليون كلمةه ونظرة إلى .ذلك المنيزاك ذاقنا ما ying‏ لاء 
ذخيرتي لوب وبراون Ghai‏ بمثابة أختين من deal‏ واحد يمكن الاعتماد 
عليهما في مقارنة النموذج البريطاني والنموذج الأميركي من اللغة الإنجليزية. 
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TLE ذخيرة النصوص الفرنسية المعروفة باسم‎ (Y) 
(Trésor de la Langue Francaise) 
أشنت هذه الذخيرة بالتعاون بين كل من مركز البحوث العلمية التابع‎ 
للحكومة الفرنسية وجامعة شيكاغو الأميركيةء وقد غطت المادة اللغوية في‎ 
تلك الذخيرة اللغوية الفترة من القرن السابع الميلادي حتى القرن العشرين؛‎ 
حيث ضمت ما يقرب من ألفي عينة نصية تغطي جميع الأساليب التحريرية‎ 
في اللغة الفرنسية. ويصل عدد الكلمات في تلك الذخيرة إلى حوالي مائة‎ 
مليون وخمسمائة ألف كلمة. وقد حفظت تلك الذخيرة النصية في أسطوانات‎ 
للتعامل معها وتصفحها.‎ Unix ليزر بالإضافة إلى استخدام نظام التشغيل يونكس‎ 


(Y)‏ ذخيرة هيلسنكي النصية للمعلومات التاريخية 
(The Helsinki Corpus of Historical English)‏ 
تأسست تلك الذخيرة في جامعة هيلسنكي من خلال مجموعة من علماء 
اللغة بقيادة العالم اللغوي روسيني (Roseanne)‏ وتشتمل تلك الذخيرة النصية 
على جميع النصوص التاريخية باللغة الإنجليزية في الفترة من عام ١٠٥۸م‏ 
حتى عام ٠‏ م. وقد قسمت المادة اللغوية بهذه الذخيرة إلى شرائح زمنية 
مدى كل منها مائة عام..ويصل aaa‏ تلك الذخيرة إلى ست عشرة مليون 
كلمة. pbs‏ أول ذخيرة نصية تاريخية باللغة الإنجليزيةء ولهذه الذخيرة 
اللغوية قيمة علمية كبيرة من حيث كونها موجّهة لدراسة مدى التغير في 
اللغة الإنجليزية من خلال وجهة نظر علم اللغة الاجتماعي وعلم اللهجات 

والاستخدام اللغوي. 
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ICE للنصوص الإنجليزية‎ 45 gall الذخيرة‎ (t) 
(The International Corpus Of English) 

تولى إنشاء هذه الذخيرة aud‏ اللغة الإنجليزية بجامعة لندن في عام 
۱۸۸ وتهدف إلى تقديم معلومات للأبحاث المقارنة عن معدل التغير 
اللغوي في الدول الناطقة بالإنجليزية على مستوى calel‏ وقد اتخذت عيناتها 
اللغوية من جميع الدول الناطقة بالإنجليزيةء كما استخدمت برمجيات موحدة 
للتصنيف والتكويد. وكانت حدود المادة اللغوية من كل دولة حوالي مليون 
كلمة مقسمة بالتساوي بين المستويين التحريري والشفهي. واستغرق جمع 
محتويات تلك الذخيرة النصية ثلاث سنوات من ۱۹۹۰ إلى NAVY‏ 
بالإضافة إلى أن نطاق المادة اللغوية كان يستهدف الأشخاص البالغين الذين 
يتجاوز عمرهم VA‏ عاما وتربوا على اللغة الإنجليزية منذ صغرهم. 

والجدير بالذكر أن مجموعات العمل المُكلفة بإنشاء ذخائر لغوية 
بالصين كانت تتزايد بصورة متواليةء كما أن الأبحاث اللغوية والمسح اللغوي 
القائم على ذخائر نصية كان يتزايد باضطرادء مثل الدراسات الإحصائية التي 
تمت على ذخائر لغوية كبيرة الحجم للتعرف على معدل تكرار الرموز 
والكلمات في اللغة الصينية. وقد خرج عن تلك الدراسات نتائج علمية 
ملمؤمنة» من أهمها (قائنة لأرمون الأكثل الستخدامًا قي اللفة الصيتية 
الحديثة)ء و(معجم معدل تكرار الكلمات في اللغة الصينية الحديثة). وسوف 
نتحدث بالتفصيل عن بناء الأنواع المختلفة من الذخائر اللغوية في الصين 
بصورة أكثر تفصيلاً في الباب الأخير من هذا الكتاب. 
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ب- زيادة الأبحاث العلمية القائمة على ذخائر لغوية 
لقد أدى إنشاء الذخائر اللغوية إلى دفع الأبحاث اللغوية القائمة على 
تلك الذخائرء ويمكننا بوضوح أن ذ ظط ذلك من خلال الإحصاءات المبيّنة في 
الجدول التالي: 
جدول :1-١‏ إحصاء بالأبحاث القائمة على ذخائر 
لغوية في الفترة من ١959‏ إلى ١19١‏ 


(Johansson:1991) جوهانسون‎ 





الفترة الزمنية 
1959 - 1965 
1966 - 1970 


1975 - 1971 
1980 - 1976 
1985 - 1981 


























1991 - 1986 





























وتشير الحقائق إلى أن الذخائر اللغوية الإلكترونية قد قدمت مصادر 
رائعة Ca,‏ مجالات البحث اللغوي. وذلك نظرًا إلى أن المادة اللغوية التي 
تقدمها تتصف بالواقعية بالإضافة إلى وضوح التكوين الهيكلي لها؛ ومن ثم 
أصبحت تلك الذخائر خير مُعين على تقديم وصف لغوي متعدد المستويات؛ 
بالإضافة إلى أنها ساهمت في تطوير الأبحاث المقارنة بين الأساليب اللغوية 
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المختلفة» والأكثر من ذلك أنها أسهمت أيضًا في عمل الدراسات الإحصائية 
الكمّية عن اللغة. 

وفي تلك الفترةء توصلت العديد من الأبحاث اللغوية إلى نتائج علمية 
مهمةء منها ما تمكن من تعميق نتائج الدراسات الموجودة بالفعل» ومنها Co‏ 
ما وسّع مجالات البحث اللغوي المتعارف عليها. مثل دراسات نحو 
الاحتمالات التي قدمها هاليداي (Halliday)‏ عام )149 وسقارتفيك 
(Svartvik)‏ عام ۱۹۹۲ء وغيرهما. وكذلك الدراسات المتعلقة بخصائص 
اللغة الإنجليزية التي قدمها دوتي Dotti‏ عام )6144 بالإضافة إلى الدراسات 
الإحصائية التي قدمها سينكلي (Sinclair)‏ وغيره عام ۱۹۸١‏ عن تراكيب 
اللغة الإنجليزية. 

أما عن أسباب ازدهار علم الذخائر اللغوية في اللغة الإنجليزية مع 
بداية ثمانينيات القرن العشرين فهناك العديد من الآراء نستطيع أن نوجزها 
في النقطتين التاليتين: 

)١(‏ إن تطور علوم الحاسب وانتشار التقنيات والتطبيقات الإلكترونية 
قد أرسى دعائم ULI,‏ قوية لتطور علم الذخائر اللغوية ونموه. فمنذ 
ثمانينيات القرن الماضيء دخلت الذخائر اللغوية دورة ممتازة من 
أطوار التطور؛ فقد ساهم النمو الهائل في سرعة الحاسب وقدرته 
على تخزين المعلومات في الإسراع ببناء الذخائر اللغويةء 
بالإضافة إلى زيادة القدرة على معالجتهاء وتعدد مستويات 
المعالجة. ومن جهة أخرىء نجد أن القدر الهائل من البيانات التي 
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تم ترميزها ومعالجتها قد Glad pea‏ الذخائر اللغوية Lo jokey‏ 
وعظم من فرص الاستفادة منها. وفي تلك الفترةء ظهرت Cai‏ 
وسائل بحثية متطورة ولغات برمجة ساهمت في ابتكار برمجيات 
حديثة حولت مجرى الدراسات الإحصائية ومعالجة اللغفة من 
الأسلوب اليدوي إلى أسلوب Sica‏ أو نصف Side‏ ومن هنا يبدو 
لنا ER‏ الدور المهم للحاسب في ذلك التطور والنمو. 

(Y)‏ ثبت أن بعض النقد الذي وجهه علماء مدرسة النحو التحويلي 
التوليدي لعلم الذخائر اللغوية كان خاطئاء مثل الرأي الذي يتهم 
تقنية الحاسب أنها تقنية خادعةء بالإضافة إلى أن عددًا آخر من تلك 
الآراء النقدية كان سطحيّاء على سبيل المثال ذلك الرأي الداعي إلى 
الإنكار الكلي لقيمة الذخائر اللغوية؛ وبعضه كان صحيمًا Sie‏ 
الرأي القائل: إن عدد الجمل التي تتكون في إطار اللغة لا متناهي. 
أما بالنسبة إلى الرأي الداعي لاتخاذ المذهب العقلي في دراسة 
اللغة» فقد أثبت تدريجيًا بعض القصور بعد أن اتبعه العديد مسن 
العلماء وطبقوه وأعملوا فيه فكرهم» Py‏ ذلك القصور في العجز 
عن التحقق من الفرضيات اللغوية العقلية التي يضعها العلماء 
وإثباتها وغير ذلك. ولذلك فقد عبر علم الذخائر اللغوية منذ نشأته 
في ثمانينيات القرن العشرين بصورة واسعة عن أن مجال البحث 
في ale‏ اللغة متسع وشاسع. ويعني ذلك استعادة التنوازن بين 
المعلومات الطبيعية والمعلومات التوقيفية في الدراسات اللغوية. 


42 


فلماذا لا يتم الجمع والتكامل بين العنصرين في البحث اللغوي حتى 
يكن sai‏ من مميزات كل مهما ولكي يمكن الوطئول اى 
ذلك التوازن النافع دعا العديد من علماء اللغة إلى ما يلي: 
المادة اللغوية تلعب دور محوريًا في النظريات اللغويةء وهناك العديد 
من المسارات التي يمكن اتباعها لتطوير تلك المادة... ولا يمكن القول بوجود 
طريقة واحدة". هاليداي .(Halliday:1991)‏ 


"من وجهة النظر العلميةء يمكن القول: إن أسلوب الذخائر اللغوية هو 
الأسلوب الأقوى في دراسة اللغةء نظر! إلى أن النتائج التي يتم التوصل إليها 
يمكن قياسها والتحقق منها". ليتش .(Leech:1993)‏ 

حتى Lil‏ نجد Ule‏ مثل فيلمور (Fillmore)‏ والذي وجه انتقادات 
كبيرة إلى ale‏ الذخائر اللغوية» يكتب ما يحمل معنى الاعتراف بفضل 
. الذخائر اللغوية على العلوم اللغوية: "علني أعتقد عدم وجود الذخيرة النصية 
التي تقدم معلومات كاملة عن قواعد اللغة الإنجليزية ومفردات... ولكن في 
الحقيقة أنه في كل مرة alll‏ على نتائج معالجة لذخيرة نصية مهما كان 
حجمها أجد أنها قدمت ما لا يمكن أن تقدمه أية طريقة أخرى. وخلاصة 
قولي في هذا الأمر هو أن كلا المذهبين يحتاج كل منهما إلى الآخر". فيلمور 
.(Fillmore:1992)‏ 
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الفصل الثالتٌ 
توجهات التطوير وآفاقه في علم الذخائر اللغوية 


تحدث العديد من العلماء المتخصصين في علم الذخائر اللغوية في 
السنوات الأخيرة عن آفاق التطور في ذلك العلم بصورة مستفيضة؛ مثل 
سثارت فيك الذي تنبأ قائلاً: Cag?‏ يصاحب ذلك ازدياد في حجم الذخائر 
اللغوية وتخسن في جودتهاء وسوف يرتفع معدل اس تخدامها" 
١ (Svartvik:1992)‏ 

أما ماكنري» فعلى العكس من ذلك يرى أن تطور علم الذخائر اللغوية 
سوف يتأثر تطوره بأربعة عوامل هي: نطاق الذخائر اللغوية وأنواعها ومدى 
اهتمام الدول cles‏ ومعدل تطور الحاسبات الآلية Lud .(McEnery:1996)‏ 
بالنسبة إلى الوضع الراهن للأبحاث اللغوية القائمة على الذخائر اللغويةء فقد 
وجدنا أن الآراء حول توجهات التطور في ذلك Ti‏ سوف تتمثل في 
النواحي التالية: 


١‏ - تطور الاعتماد على الذخائر اللغوية 


الذخائر اللغوية؛ نظر! إلى زيادة الوعي بقيمة المصادر اللغوية Ago gill‏ 
وظهر ذلك السعي بصورة أكبر بين دول أوروبا انطلاقا من رغبة الحكومات 
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والهيئات العلمية بتلك الدول في الحفاظ على لغاتها القوميةء Jia‏ جامعة 
أكسفورد الإنجليزية التي أصدرت الذخيرة اللغوية القومية بالتعاون مع جامعة 
لانكستر ومؤسسة Guiles)‏ الإنجليزية للطبع والنشر والمكتبة الملكية 
الإنجليزية وغير ذلك من الهيئات»ء ومثل هيئة الثقافة والعلوم والتربية اليابانية 
التي كونت مجموعة عمل من ثلاثمائة خبير عام ١949‏ قضوا خمسة أعوام 
في بناء الذخيرة اللغوية للغة اليابانية؛ وقد سُجّلت هذه الذخيرة على عدد YY‏ 
أسطوانة ليزرء من بينها عدد ٩‏ أسطوانات لغوية وعدد Y‏ أسطوانات 
للمعلومات. وسوف يستمر البحث في بناء مثل هذا النوع من الذخائر اللغوية. 
ويأتي ترميز الذخائر اللغوية في المرحلة التالية بعد إنشائها. وهناك من يعتقد 
أن السنوات المقبلة سوف تستفر عن ظهور ذخائر لغوية صغيرة الحجم. 
لأغراض ates‏ مثل الذخيرة اللغوية التي أنشأها شورت لدراسة أساليب 
التعبير عن اللغة والفكر .(Short:1996)‏ وبالإضافة إلى ذلك فإن الذخائر 
اللغوية المبنية على اللغة الشفهية ينبغي أن تتطور بصورة أسرع حتى يمكن 
التغلب على حالة عدم التوافق بين الذخائر اللغوية التحريرية والذخائر 
الشفهيةء ومن أجل دفع الدراسات المتعلقة باللغة الشفهية. وقد توقع ولسون 
أنه في المستقبل القريب سوف نجد ذخائر نصية متعددة الوسائط 
-(Wilson:1996)‏ 
۲ تطور أساليب ترميز المواد اللغوية 

يُقصد بترميز الذخائر اللغوية وضع أساس لإجراء تحليل متعدد الأبعاد 
والمستويات» بالإضافة إلى أن المستفيد النهائي من ذلك الترميز لا يكون 
بالضرورة هو الشخص الذي قام بعملية الترميز في البداية؛ ومن ثم نستطيع 
القول: إن الاستخدام الأمثل للذخائر اللغوية يعتمد بدرجة كبيرة على 
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مستويات الترميز وجودته داخل تلك الذخائر. ولذلك فإن القوة المُحَركة 
لتطور ترميز الذخائر اللغوية يجب أن تتضمن الشروط التالية: 

)1( السعي قدر الإمكان إلى تدوين وتوثيق حدود الترميز وأنظمته التي 
تظهر في تحليل اللغة؛ على سبيل المثال ما قام به كل من 
جوهاسون «(Johansson:1982)‏ وسامبسون (Sampson:1987)‏ من 
وضع jules‏ قياسية لأنظمة التحليل اللغوي» وتحوي اللغة الصينية 
نظامًا لترميز أنواع الكلمات وتقسيمها داخل النصوص الصينية("). 

(Y)‏ ضرورة التوافق بين أنظمة التحليل المختلفة:؛ بمعنى محاولة 
استخدام علامات معروفة لدى الجميع؛ وتقديم المعلومات اللازمة 
للتحويل من نظام ترميز إلى نظام آخر. 

(Y)‏ لا يوجد توازن بين مستويات تطور أنظمة الترميز على مستويات 
اللغة المختلفة. فالمستويات الأسرع My ght‏ هي عمليات الترميز 
على مستوى المفردات ومستوى النحو ومستوى الصوتيات 
ومخارج الأصوات وغير ذلك. وينبغي الاهتمام بصورة أكبر من 
الآن فصاعذا بأنظمة الترميز على المستويين الدلالي والوظيفي. 

-Y‏ تطور أدوات معالجة المادة اللغوية 
يعتمد تحليل المادة اللغوية على بنية الحاسب بصورة أساسية؛ ويُقصد 
ببنية الحاسب تلك الأدوات والبرمجيات التي تقوم بالبحث ومعالجة المادة 
)1( نظر! إلى طبيعة اللغة الصينية التي تتكون كلماتها من رموز وليس من حروف 
كاللغات الأبجدية يحتاج الحاسب دائمًا إلي وسائل برمجية لتمييز حدود الكلمات 
وفصلها عن بعضها في النصوص المكتوبة باللغة الصينية. (المترجم) 
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اللغوية وتطوير استخدام أساليب ale‏ الإحصاء في بناء أدوات فعالة لعمل 
المعالجة الآلية Aall‏ من أجل زيادة فاعلية الباحثين وإنتاجيتهم في مجال 
البحث اللغوي. وعلى الرغم من أن برمجيات المعالجة المتاحة Ulla‏ قليلة 
العددء فإن معظمها تمت صياغته لمعالجة ذخائر لغوية محددة ونطاق 
استغلالها محدود للغاية ولا يمكن تعميم استخدامها. 
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الفصل الرابع 
دور الحاسب في علم الذخائر اللغوية 


إذا تم التحليل اللغوي على نصوص كبيرة الحجم بصورة يدوية فمن 
السهل حدوث أخطاءء ومن الصعب الانتهاء من عملية التحليل» بالإضافة إلى 
زيادة إمكانية التكرار وغير ذلك من الصعوبات. وعلى الرغم من أن هذه 
الطريقة في البحث اللغوي قد قدمت إسهامات عظيمة للدرس اللغوي على 
مدى عدة قرون مضت وخاصة في مجال تأليف المعاجم» فإن ظهور الحاسب 
الآلي مع منتصف القرن العشرين قد أدى إلى حدوث SG‏ جذري في مجال 
الدراسات اللغوية القائمة على النصوص اللغوية. ودفعتنا ثورة المعلومات إلى 
تغيير أساليب العمل القائمة على المواد اللغوية بصورة جذرية. ولم تعد هناك 
حاجة إلى استخدام البطاقات في جمع المواد اللغوية وتصنيفها؛ حيث أصبح 
مصممو المعاجم وعلماء اللغة يلجئون إلى استخدام الحاسب في تخزين 
كميات هائلة من النصوصء ويمكنهم أيضنًا البحث عن المفردات أو العبارات 
أو الجمل وإظهارها على شاشة الحاسب بسرعة دون أدنى خطأ. والأكثر من 
ذلك أنه يمكن إعادة التصنيف والترتيب بناءً على أكثر من أسلوب مثل 
تصنيف الكلمات طبقا لأساليب الاقتران فيما بينها أو الطبيعة النحوية لكل 
منها. ولذلك أصبح هناك ارتباط وثيق بين الحاسب وعلم الذخائر اللغوية. 
والحقيقة التق لا موان aga‏ اتام a‏ بالل قد جعل cad‏ 
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اللغوي القائم على الذخائر اللغوية يتسم بالسرعة والدقة والقدرة على معالجة 
نصوص ذات أحجام هائلة. إن استخدام برمجيات الحاسب لم تقلل فقط من 
العبء اليدوي الذي كان يبذله علماء اللغة في تأليف المعاجم ومعالجة 
الكميات الكبيرة من المواد اللغوية؛ ولكن تلك البرمجيات قللت أيضًا من 
العوامل البشرية التي تؤدي إلى الخطأ في أثناء العمل. وبالإضافة إلى 
إمكانات الحاسب التي سبق الإشارة إليها من حيث القدرة على تصنيف المواد 
اللغوية وإحصائها وترتيبهاء يستطيع الحاسب Cad‏ أن يقدم إحصاءات سليمة 
عن معدل تكرار تلك المواد داخل النصوصء بالإضافة إلى أن تلك 
الإحصاءات الرقمية تمكننا من تكوين معلومات قياسية عن اللغة ثم تطبيقها 
واستخدامها في عمل برمجيات كتابة الرمؤز الصينية باستخدام الحاسب!" أو. 
تلك التي استخدمت في تمييز الأصوات اللغوية أو فهرسة النصوصء وغير 
ذلك من البرامج التطبيقية التي اعتمدت على المعلومات اللغوية كأساس لها. 
كما aL‏ الحاسب الآلي في تعظيم قدرات علماء اللغة في البحث 
اللغوي» وبذلك يتمكن هؤلاء العلماء من تنويع إمكانات استخدام اللغفة 
وتدعيمها في عمل تطبيقات لغوية متقدمة. إن الدراسات الكمية المعتمدة على 
الذخائر اللغوية في حقل اللسانيات تساهم في زيادة الوصف العلمي للظواهر 





)١(‏ اعتماذا على المعلومات الإحصائية التي تمت على ذخائر لغوية للتعرف على معدلات تواتر سلاسسل 
الرموز والكلمات داخل النصوص الصينية تمكن العلماء الصينينون من عمل برمجيات لكتابة اللغفة 
الصيئية على الحاسب تقوم بإدخال جمل كاملة إلى الحاسب دفعة واحدة عن طريق كتابة الأحرف 
الأولى لنطق الكلمات داخل تلك الجمل» وبذلك احتلت اللغة الصينية مركز الصدارة بين لغات العالم من 
حيث كونها أسرع لغة تكتب على الحاسب. (المترجم) 
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اللغوية وتعميقهء بالإضافة إلى زيادة الارتباط بين ذلك الوصف وعمل 

تطبيقات اللغوية المختلفة في جميع المجالات. ومن بين تلك التطبيقات 
اللغوية الترجمة الآليةء والتحويل بين الأشكال النصية المختلفة (مثل تحويل 
النصوص المكتوبة إلى مكافئها الصوتي وهي نلك التقنية المعروفة اختصارًا 
«(Text To Sound) TTS aut‏ وتحليل المحتوى» وتعليم اللغات وغير ذلك 
من المجالات التي SE‏ المستفيد الأول من تطبيقات التحليل الكمي لل ذخائر 
النصية. 


إن تحقق الحلم بمعالجة النصوص اللغوية باستخدام الحاسب إنما يرجع 
إلى سبعينيات القرن العشرينء وقد نشر العالم جوف دندانكوتي في مجلة 
"الدر اسات الحاسوبية للأدب واللغة" (Literary and Linguistic‏ 
Computing)‏ مقالاً يتوقع فيه أوان عصر معالجة اللغات باستخدام الحاسب 
Yay‏ من الممارسة اليدوية للإنسان. وقد قضى هذا العالم هو وتلاميذه ست 
Cul gin‏ من العمل الشاق تمكن. بخذها. من تقديم معالجة وإذارة معلوماتية gail‏ 
لغوي يصل إلى ثلاثمائة ألف كلمة باس تخدام الحاسب الآلي 
es -(Govindankutty:1973)‏ ى علماء لغة الذخائر اللغوية في عصرنا 
الحالي أن استخدام الطرق اليدوية في تدوين النصوص على الورق أصبح 
من الطرق العقيمةء وأن تلك الأعمال الشاقة يمكن الاستغناء عنها باس تخدام 
لوحة المفاتيح التي يتم إدخال المعلومات من خلالها إلى الحاسب الآلي. 

في منتصف ثمانينيات القرن العشرين أصبح بمقدور علماء الذخائر 
اللغوية إنهاء العمل في إدارة المعلومات اللغوية داخل حاسبات كبيرة الحجم 
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بسرعة نسبيةء وقد كان مثل ذلك العمل يحتاج Giy‏ طويلا في السبعينيات؛ 
حيث كان الحاسب يستغرق ما يزيد عن ساعة للبحث عن معدل تكرار كلمة 
مثل "When"‏ في ذخيرة لغوية يصل عدد كلماتها إلى مليون كلمة؛ أما مع 
حاسبات الثمانينيات فقد أصبح هذا العمل لا يستغرق أكثر من عدة دقائق. أما 
الآن فبإمكان الحاسبات الشخصية أن تحتوي أقراصا Ae‏ ذات سعة تخزينية 
كبيرة ووحدات معالجة ذات سرعة هائلة ويمكنها القيام بأعمال تخزين 
وتحليل للنصوص بصورة أكثر سهولة وملائمة. 

وقد سبق أن ساهم خبراء الحاسب في بداية ثمانينيات القرن العشرين 
في حل بعض الإشكاليات الفنية التي كانت تعترض علماء الذخائر اللغوية في 
مجال استخدام الحاسب في التحليل اللغوي. ومع بداية التسعينيات ساهم 
التطور السريع للحاسبات والبرمجيات المتخصصة في تحليل الذخائر اللغوية 
وتسويقها بصورة تجارية في إزالة الخوف أمام العلماء وتشجيعهم على 
استخدام الحاسب وابتكار البرمجيات المساعدة على تحليل الذخائر اللغوية. 
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الفصل الخامس 
مجالات البحث في علم الذخانر اللغوية 


المستهدف الأساسي من ale‏ الذخائر اللغوية هو النصوص اللغوية»؛ 
وهذه النصوص هي المصدر الرئيس في تقديم الوصف والبراهين اللغوية. 
ومن بين أنواع ذلك الوصفء تقديم الوصف الكمي لتوزيع المفردات 
والتعبيرات Jala‏ اللغة. وهذا المنحى البحثي ghd‏ تدريجيًا ليصبح أحد 
المكونات الأساسية التي لا غنى عنها في الدراسات اللغوية» وهذا يتشابه 
تمامًا مع ما أشار إليه ليتش Leech‏ عام ١137‏ قأئلا: "إن الهدف من البحث 
اللغوي هو وصف الاستخدام اللغوي وليس وصف القدرة اللغوية؛ لأن متابعة 
الطبيعة اللغوية ومراقبتها وسط بيئة الاستخدام هي التي تؤدي إلى ظهور 
النظرية اللغوية وليس العكس". | 


ومن Bb‏ نجد أن ale‏ اللغة يختلف عن النظرية اللغوية عند التحويليين 
التوليديين فهذا العلم ليس نظرية لغويةء ولا يمكن أن نطلق عليه أنه فرع 
مستقل أو جديد من أفرع ale‏ اللغةء وإنما هو الوسيلة المنهجية التي يتبعها 
علماء اللغة في إجراء البحوث اللغوية. إن علماء اللغة في أثناء بحثهم في 
جوهر اللغة وعناصرها وأبنيتها ووظيفتها يحتاجون إلى أدلة وقرائن لغوية 
لوصف ما هو ممكن داخل اللغة. وهذه القرائن اللغوية يستخلصها علماء 
اللغة من مراقبتهم ودرسهم للظواهر اللغوية في عصور مختلفة» ويتأتى ذلك 
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إما عن طريق الاستقراء والجمع وإما عن طريق مراقبة اللغة ووصفها في 
مستوييها الشفهي والتحريري. وفي الدراسات القائمة على الذخائر اللغوية 
يمكن استخلاص تلك الحقائق بصورة مباشرة من النصوص. وفي تلك النقطة 
نجد أن علم الذخائر اللغوية يختلف عن النظرية اللغوية التي تعتمد على 
القرائن الجدلية والمنطقية التي يتبعها علماء اللغة التقليديُون» فعلم الذخائر 
اللغوية لا يقدم احتمالات ظهور المفردات والأبنية والوظائف المختلفة داخل 
«aun Aull‏ بل بق ابا Cane‏ ليون نلك الور اللغوية داخل اللغة. 
وهذا العلم يتشابه مع باقي علوم اللغة في كونه يبحث في طبيعة اللغة وأبنيتها 
ووظيفتها كما يبحث أيضنًا في وسائل اكتساب اللغة والتحول اللغوي وتَغير 
اللغة. ونقاط التركيز في هذا العلم هي المفردات والوظائف النحوية اتلك 
المفردات وليس النحو بمعناه الضيق. 
١‏ - إنشاء الذخائر اللغوية وتصميمها 

الذخائر اللغوية هي المصدر الذي يمد علم الذخائر اللغوية بالمادة 
اللغوية؛ ولذلك فإن تصميم الذخائر اللغوية وتأليفها هو أساس البحث في هذا 
العلم. وهذا التصميم يضم في معناه تصميم الذخيرة اللغوية ذاتهاء ووسائل 
جمع المادة اللغوية وتسجيلها وإدارتها. ولا يُقصد بالذخيرة اللغوية ذلك 
- التجميع السطحي للنصوصء وإنما يقصد به أن تكون تلك النصوص Byala‏ 
عن اللغة بصورة عامةء أو في أحد التخصصات. ولذلك فعند تصميم ذخيرة 
لغوية ينبغي أن تكون البداية بالعمل طبقا لهدف عام يحكم بناء المادة اللغوية 
والتفكير بصورة دقيقة في المبادئ التي ei‏ في اختيار العينات اللغوية 
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وتوزيع تلك العينات داخل إطار اللغة؛ وذلك لنتمكن قدر المستطاع من جعل 
تلك الذخيرة اللغوية تمثل اللغة في فترة زمنية محددة. 

ونظرا إلى عدم وجود مؤشرات كمية ثابتة توضح لنا الشروط التي 
يمكن معها اعتبار العينات اللغوية ممثلة للغة في إطارها الأشملء فليس أمامنا 
إلا أن نستعين بتجاربنا الذاتية وخبرات من سبقونا في بناء الذخائر اللغوية. 
وانطلاقا من هذا المفهوم؛ يمكننا أن نقرر أن قواعد اختيار العينات اللغوية 
ونسب توزيعها داخل إطار اللغة من الموضوعات التي يتوقف عليها تطور 
الذخائر اللغوية التي لم يتم التوصل إلى حلول وإجابات لها حتى الآن. 
وبطبيعة الحال» فإن نطاق الذخائر اللغوية ومقاييس حفظها وتخزينها وما إلى 
ذلك تعد قضايا مطروحة ويجب الإجابة عليها في أثناء عملية إنشاء الذخائر 
اللغوية. ومن دون ذلك لا يمكن أن نجعل من الذخائر اللغوية مصادر حقيقية 
يمكن الاعتماد عليها في دراسة اللغة بصورة شاملة ومتكاملة. 


" تقنيات إدارة الذخائر اللغوية ومعالجتها 

يقصد بذلك تلك الأدوات البرمجية التي نخدم في تحليل المادة اللغوية 
وترميزهاء وحمايتهاء وفهرستها. فالذخيرة النصية لا تقتصر فقط على كونها 
ble g‏ يحتوي Ca paai‏ لغوية» وإنما ينبغي أن تتمتع بقدرات متميزة في 
التخزين ple sully‏ حتى يمكن أن تتيح لجميع الباحثين فرصة الحصول 
على المعلومات التي يرغبون فيها من المادة اللغوية المخزنة داخل الذخيرة 
اللغوية؛ ولذلك فإن فهرسة المواد اللغوية من الأعمال المهمة. ومن أشهر 
التقنيات المستخدمة في الفهرسة تلك التقنية المعروفة باسم .Concordance‏ 
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ail‏ حدث J'ai‏ هائل في نطاق الذخائر اللغوية وأنواعها وسهولة 
التعامل معها وغير ذلك Bb‏ لزيادة فاعلية أداء الحاسبات. وبالفعل» حدث 
تطوير لعدد كبير من البرمجيات التي تقوم بمعالجة البيانات وتداولها داخل 
الذخائر اللغوية. إلا أن قيمة الذخيرة nae‏ باعتبارها مصدرا للمادة اللغوية 
موضع البحث لا يمكن أن تقاس فقط من حيث الحجم» وإنما ينبغي أن يكون 
عنصر الترميز فيها هو المصدر الذي يحمل قيمة مضافة إلى pone re‏ 
أن يتم ترميز الذخائر اللغوية بأساليب kihis‏ وعن طريق تلك الوسائل 
الترميزية يمكن تعظيم نطاق المعلومات وتوسيعه داخل الذخيرة بصورة 
واضحة. ومن i‏ نقدم إنجازات أكثر قيمة للباحثين في.مجالات اللغة ALAS‏ 
وبالنسبة إلى الذخائر اللغوية الصينية فإن عملية تمييز حدود الكلمات' تعتبر 
بخلاف باقي اللغات الهندأوروبية هي الخطوة الأولى التي تبتی عليها جميع 
مستويات المعالجة اللغويةء ثم تأتي بعد ذلك مستويات المعالجة الأخرى التي 
تتم مع تلك اللغات؛ مثل: الترميز على مستوى نوع الكلمة» والترميز على 
مستوى دلالة الكلمات ودلالة الجمل؛ والترميز على مستوى النحوء بالإضافة 
إلى الترميز على مستوى الفقرات والنصوص ALEN‏ وغير ذلك من عمليات 
المعالجة. i‏ 


)1( بمعنى إضافة مسافة تفصل بين الكلمات وبعضها داخل النصوص الصينية» نظرًا إلى 
طبيعة اللغة الصينية التي تتكون من رموز متراصة مع بعضها دون مسافات؛ ويعتمد 
القارئ على خبرته اللغوية في وضع تلك الرموز معا في إطار كلمات» أما في حالة 
التعامل الحاسوبي مع اللغة الصينية فتكون هناك حاجة ماسة لوجود تلك 
المسافات. (المترجم) 
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*- استخدام الذخائر اللغوية في البحث اللغوي 

"إن ظهور العديد من وسائل تطوير معالجة المادة اللغوية واستخراج 
المعلومات اللغوية من بين النصوص قد زاد وعمّق قدرتنا على معرفة اللغة 
وفهمها". هاليداي PIHalliday:1991)‏ لقد crs‏ الذخائر اللغوية مسصادر 
معلومات قيمة مكنت العلماء من وصف اللغةء وقد استطاع علماء اللغة تقديم 
وصف للمفردات والقواعد Jala‏ اللغة اعتمادًا على تلك الذخائر اللغوية 
HA‏ على وسائط إلكترونية؛ وذلك استنادًا إلى فرع اللغة الذي يتخذ من 
النخائر اللغوية نقطة ارتكاز له. ولم تقتصر موضوعات الدراسة على مراقبة 
إمكانات ظهور الكلمات داخل النصوصء بل تطرقت إلى دراسة حالات 
ظهور تلك الكلمات أيضًا. وبالنسبة إلى الدراسات المتعلقة بتوزيع المفردات 
والقواعد داخل النصوصء فقد ساهمت الذخائر اللغوية في دفع بحوث 
تصنيف النصوص» والتحوأل اللغوي وتلك الدراسات المتعلقة بتغير أشكال 
اللغة. وعن طريق استخلاص المعلومات من مواد لغوية كبيرة الحجم» قدمت 
الذخائر اللغوية معلومات وافرة عن السياقات النصية من شأنها أن تخدم 
مجال الدراسات الدلالية للغة. ' 


٤‏ - تطبيقات الذخائر اللغوية في علم اللغة الحاسوبي 
إن التطبيقات التي يقدمها الوصف اللغوي القائم على الذخائر اللغوية 


هي ذلك المجال المليء بالإبداع العلمي والتطبيقي في علم الذخائر اللغوية. 
فمن الممكن استخدام نتائج البحث في علم الذخائر اللغوية لعمل تطبيقات في 
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معالجة اللغات الطبيعية وتمييز الأصوات اللغوية ونظم الترجمة الآلية. ومع 
بداية التسعينيات» شغلت الدراسات الإحصائية التي تمت على ذخائر نصية 
كبيرة الحجم مركز الصدارة تدريجيًا في مجالات معالجة اللغات الطبيعية. 
مجمل القول: إن فريقا من العلماء في علم الذخائر اللغوية يتولى البحث في 
أساليب تصميم الذخائر اللغوية ومنهجياتهاء وهناك فريق آخر منهم مهتم 
بالبحث في وسائل تحليل النصوص ومنهجيات معالجتهاء وهناك فريق ثالث 
وهو القسم الأكبر الذي يهتم بالبحث في توصيف اللغة داخل الذخائر اللغوية 
وبحث تطوير التطبيقات القائمة على ذلك. 
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الفصل السادس 
حول إعداد هذا الكتاب 


الباب الأول: من هذا ye GUS‏ القارئ بالمفاهيم الأساسية حول 
ale‏ الذخائر اللغويةء ويستعرض بصورة مبْسّطة تاريخ تطور هذا العلم» 
بالإضافة إلى شرح لمجالات البحث في علم الذخائر اللغوية. أما الأبواب 
التالية من الكتاب فتتناول تلك المجالات بمزيد من الشرح والتحليل. 

الباب الثاني: يتناول بالتفصيل بناء الذخائر اللغوية ويتعرض بمزيد من 
التعمق لبعض القضايا التي يجب أخذها بعين الاعتبار عند العمل في الذخائر 
اللغوية؛ بغرض إقرار بعض المبادئ الواجب توافرها عند بناء الأنواع 
المختلفة للذخائر اللغوية» وفي نهاية الباب نرف بعض الل ذخائر اللغوية 
المهمة داخل الصين وخارجها. 

أما الباب الثالث: فيتعرض للتقنيات الخاصة بإدارة الذخائر اللغوية 
ومعالجتها في إطار ثلاثة محاور أساسية: تقنيات فهرسة الذخائر اللغوية 
(فهرسة «(tas‏ وأساليب الإحصاء المستخدمة مع الذخائر اللغوية» وترميز 
الذخائر وما إلى ذلك. وتعتبر النقطة الثالثة هي المحور الرئيس لهذا الباب. 

أما الباب الرابع: فيتناول الدراسات اللغوية القائمة على الذخائر اللغوية 
ويتعرض إلى وسائل الوصف الكمي المستخدمة في وصف المستويات 
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المختلفة للغة بغرض التعبير عن خصائص اللغة عند الاستخدام. وفي 
. النهاية» يقدم هذا الباب بعض الأمثلة الحقيقية عن تطبيقات الذخائر اللغوية 
على اللغتين الصينية والإنجليزية. 

ويركز الباب الخامس: على تطبيقات علم الذخائر اللغوية في مجال 
ale‏ اللغة الحاسوبي» بمعنى كيفية الاستعانة بنتائج البحث في علم الذخائر 
اللغوية لعمل تطبيقات تخدم مجالات معالجة اللغات الطبيعية كافة. 
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الباب الشاني 
تصميم الذخائر اللغوية وتطويرها 
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إن أول مَهْمّة يُكلّف بها من يعمل في Jia‏ علم الذخائر اللغوية هي 
عملية بناء الذخيرة» ومن هنا ينبغي له أن يَتَخذْ مجموعة من القرارات 
الحاسمة بشأن المادة اللغوية التي ستتضمنها الذخيرة اللغوية ووسائل جمع 
تلك المادة وغير ذلك من الإجراءات» هذا بالإضافة إلى ضرورة أن يتمتع 
من يقوم ببناء الذخيرة على القدرة على التحكم في المشاكل التي قد تظهر في 
مراحل إدارة الذخيرة اللغوية بعد تأسيسها. أما علماء اللغة الذين يتعاملون مع 
الذخيرة بعد بنائها فعليهم أن يتمتعوا بالقدرة على معالجة جميع الأمثلة اللغوية 
التي تظهر في الذخيرة اللغوية. 
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الفصل الأول 


تصميم الذخائر اللغوية وإشكاليات تجميع المادة اللغوية 

إن الغرض الأساسي الذي يسعى إليه علماء اللغة من إنشاء الذخائر 
اللغوية هو استخدام تلك الذخائر في عمليات استقراء التراكيب اللغوية 
وتحليلها والتعرف على طرق استخدامهاء فقد انتبه جوهانسون DANAE)‏ 
في منتصف تسعينيات القزن العشرين إلى أن أكثر فعل يقترن مع كلمة 
"Corpus"‏ هو فعل “Compile”‏ بمعنى تجميع» وبالفعل فقد كانت عملية 
تجميع المادة اللغوية داخل الذخائر اللغوية ووضع هيكلية بنائها وتحديد نطاق 
الذخائر اللغوية من الموضوعات التي ظلت تشغل علماء الذخائر اللغوية 
طوال الفترة من ستينيات حتى سبيعنيات القرن العشرين. 

إن نقطة الانطلاق التي تبدأ منها عملية تصميم الذخائر اللغوية 
وتجميعها هي: كيفية جعل المعلومات اللغوية التي ستّمئتخرج من تلك الذخائر 
منطقية ويمكن الاعتماد عليها. ولذلك أشار كينيدي "\Kennedy:1998)‏ إلى 
أول مشكلة تواجه مصممي الذخائر اللغويةء ألا وهي إلى أي مدى Hs‏ 
البيانات اللغوية التي تحتويها الذخيرة مُعبّرَة Ga‏ عن البناء اللغوي المطلوب 
دراسته. إن هذه المشكلة يمكن النظر إليها من خلال عدة زوايا؛ منها: هل 
العينات اللغوية للذخيرة ستكون عينات ثابتة أم متغيرة (استاتيكية al‏ 
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دناميكية)! وإلى أي مدى يمكن اعتبار حجمها Wide‏ لبنية اللغة؟ وما الحجم 
الذي ينبغي أن تكون عليه الذخيرة حتى يمكن أن تفي بالاحتياجات العامة أو 
OT‏ أغراض البحث اللغوي؟ وكم عدد العينات التي تحتويها 
الذخيرة اللغوية؟ وما حجم كل عينة؟ وفيما يلي نقدم مناقشة تفصيلية لكل 
سؤال من تلك الأسئلة التي طرحها كينيد 


أولاً: الاستاتيكية والديناميكية 


الذخيرة اللغوية يمكن جمعها بالاعتماد على نصوص استاتيكية ثابتة» 
والغرض من ذلك محاولة الحصول على عينات لغوية تكون ممثلة للغة في 
فترة زمنية محددة. والذخيرة اللغوية التي يصل حجم مادتها مليون كلمة 
تندرج تحت هذا النوع من الذخائر اللغوية. مثال على ذلك ذخيرة إس إي يو 
SEU‏ التي حاولت اختيار عينات للنموذج البريطاني cp‏ الإنجليزية في 
ظروف استخدام مختلفة على المستويين التحريري والشفهي بصورة ثابتة مما 
يجعل من تلك الذخيرة اللغوية مصدرا Wide‏ للغة الإنجليزية بصورة عامة. 
وعند تصميم هذا النوع من الذخائر اللغوية دائمًا ما نكون حريصين عند 
التعامل مع بعض القضاياء مثل أسلوب الكتابة ونطاق جمع العينات وغير 
ذلك. وتعتبر الدراسة :التي أصدرها كويرك (Quirk)‏ وآخرون! عام 
6 التي auly Cele‏ "موسوعة قواعد اللغة الإنجليزية" (Comprehensive‏ 
Grammar Of English)‏ قد تمت كتابتها بناء على ما قدمته ذخيرة al‏ 
إي يو (SEU)‏ من معلومات لغويةء وكان كويرك يعتقد أن هذه الذخيرة 
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اللغوية أشبه بمن ياتقط صورة سريعة للإنجليزية البريطانيةء فهي Jia‏ 
صورة لمنظر طبيعي تم التقاطها بسرعة» بغرض تسجيل الملامح الرئيسة 
لذلك المشهد. وعلى الرغم من أن مصممي تلك الذخيرة استخدموا أسلوب 
العينات كنمط رئيس لبنائهاء فإنهم لم يستطعوا حصر جميع الظواهر اللغوية 
في متنها. وفي الحقيقة فقد cs‏ بعض النصوص العامة؛ ولذلك فهي لسم 
تأخذ عن اللغة إلا سلسلة من اللقطات والشرائح اللغوية بشكل استاتيكي. 
والحقيقة أن هذا النوع من الذخائر اللغوية أشبه بمحاولة تجميد مجرى تطور 
اللغة في لحظة بعينها. ولكن نظر! إلى أن مصممي الذخائر دائمًا ما 
يستعينون بعينات لغوية ونماذج نصية محددة العدد في بناء الذخائر اللغوية» 
فمن الممكن أن يتم مقارنة ذلك النوع من الذخائر القائمة على أسلوب البناء 
عن طريق العينات مع نماذج أخرى من الذخائر اللغوية مشابهة من حيث 
طريقة البناء. ومن الممكن النظر إلى كل من الذخائر اللغوية صغيرة الحجم 
أو الكبيرة على أنها ذخائر لغوية استاتيكية على be‏ سواءء لدرجة Lid‏ 
نستطيع القول: إن ذخيرة بي إن سي الإنجليزية BNC‏ كبيرة الخهم التي 
يصل عدد كلماتها إلى مائة مليون كلمة من النصوص اللغوية الاستاتيكية. 
الفكرة الأخرى التي eI‏ عند بناء الذخائر اللغوية هي تلك الفكرة 
القائمة على oly‏ ذخائر لغوية ديناميكية متغيرة أو ذخائر لغوية لمراقبة 
التغيرات اللغوية (monitor corpus)‏ وهذا النوع من الذخائر أشبه 
بالصور المتحركة ولا es‏ لقطة سريعة تؤخذ للغة في لحظة ما. وقد 
أطلقت تلك التسمية على هذا النوع من الذخائر لأنها pi‏ وسيلة فعالة تمكننا 
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من مراقبة نماذج الاستخدام اللغوي مقترنا بحالات التغير التي قد تلحق باللغة 
مع مرور الوقت. وهذا النوع من الذخائر يَعْتمد على تجميع كميات هائلة من 
النصوص اللغوية في أوقات معينة. ثم الاستعانة ببعض البرمجيات للبحث 
عن معلومات إحصائية Gih‏ لأهداف وصفية معينة يرغب الباحثون في 
التوصل إليها؛ هذا بالإضافة إلى إمكانية استخلاص بعض النتائج عن تلك 
الظواهر اللغوية التي يتم التوصل إليها واستنتاجهاء على سبيل المثال 
ملاحظة تواتر بعض التراكيب الجديدة وأنماط الكلمات داخل اللغة» أو حدوث 
بعض التغيرات في استخدام الكلمات القديمة» أو في قدرة تلك الكلمات علسى 
الاقتران مع كلمات أخرى. وهكذا يقدم النمط الديناميكي للذخائر اللغوية 
معلومات متلاحقة عن التغير الذي يطرأ على اللغة في التصوص الحديثة. 
وقد وصف سنكلير (Sinclair)‏ هذا المفهوم عن الذخائر اللغوية الديناميكية 
قائلاً: 'إننا كما لو كنا سير أغوار التحول اللغوي الذي يحدث مع سريان 
اللغة في مجرى الزمن". إلا أن الذخيرة اللغوية التي يصل عدد مفرداتها إلى 
مائة مليون كلمة تبدو كبيرة tha‏ على خطوات معالجة أية ظاهرة لغوية. 
Ibi‏ إلى أن العناصر التي تتكون منها الذخيرة اللغويةء وطرق الاس تخدام 
اللغوي لتلك العناصر دائمًا ما تتغير بشكل مستمرء فإن هذا يجعلنا غير 
قادرين على إجراء دراسات مقارنة بين الذخائر اللغوية عندما يتغير نوع 
النصوص المحتواة في داخلهاء مثل مقارنة التحول في معدل تكرار الكلمات 
عندما يتغير نوع النص. هذا بالإضافة إلى أن المادتراللغوية في الذخيرة 
الديناميكية يتم جمعها بصورة عفوية ولا يكون هناك ضمان لتوازن تمثيل 
العينات في كل التخصصات. 
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ففي تلك الأحوالء يحل الاهتمام بكمية المادة اللغوية وحجمها تلقائيا 
محل التصميم الدقيق والتخطيط المحكم لطريقة جمع العينات اللغوية. هذا 
بالإضافة إلى جمع تلك النصوص ومعالجتها وتخزينها على وسائط التخزين 
الصلبة داخل هيكلية الحاسب. الأمر الذي يحتاج إلى تكاليف مادية عالية 
تتمثل في الحاجة إلى خبرات تقنية وبرمجيات معقدة لإجراء عمليات التحليل 
والمعالجة؛ ولذلك فإن فرص ممارسة الأبحاث العلمية القائمة على استقراء 
الذخائر اللغوية وتحليلها Sei‏ قليلة ld‏ جمهور العلماء المتخصصين منهم 
والعامة. ولا يقدر على مثل هذا النوع من الذخائر اللغوية إلا المؤسسات 
العملاقة والهيئات الحكومية وبعض الجهات المعنية المتخصصة. ويمكن 
لبعض الباحثين المنفردين التعامل مع تلك الذخائر اللغوية نظير مبالغ معينة 
تذقع كرسوم حتى cs‏ بالتعامل مع المادة اللغوية المدونة بداخلهاء ونجد أن 
غالبية البحوث القائمة على ذخائر لغوية يقوم بها أصحابها بصورة منفردة 
مثلهم مثل معظم القائمين بأبحاث لغوية تقليدية» وقليلا ما يكون هناك تعاون 
بين مجموعات عمل. ولا يتم ذلك إلا عن طريق تبادل الأفكار بين علماء 
اللغة فيما يخص تقنيات الحاسب الآلي وتبادل النصوص. ولذلك إذا أردنا 
للذخيرة الديناميكية أن يقتصر استغلالها على قلة من العلماء فسوف يكون 
ذلك بمثابة إهدار كبير للمال والجهد. 

إن اللجوء إلى استخدام الذخائر اللغوية الديناميكية pii‏ لعلماء اللغة 
رؤية دقيقة وواقعية عن اللغة (على الأخص في مجال صناعة المعاجم 
وأبحاث علم اللغة التاريخي)؛ وتتمثل تلك الرؤية في رصد مراحل التغير 


69 


اللغوي ووسائل استخدام الكلمات التي لها معدل استخدام منخفض. ولكن LT‏ 
ما كان الأمر فإن هذا النوع من الذخائر اللغوية قادر أيضًا على ضمان 
إمكانية دراسة الكلمات ذات معدل التكرار الأعلى والمتوسط أيضاء فضلا . 
عن البحوث اللغوية المتعلقة بالصوتيات والصرف والنحو. 

وفي الوقت الحالي أدى النمو المضطرد في قدرة الحاسب على تخزين 
كم هائل من البيانات ومعالجتها إلى إتاحة التعامل مع المواد اللغوية فائقة 
الحجم التي تتعدى مائة مليون كلمة. بالإضافة إلى أن هناك حاجة ماسة 
لوجود ذخائر لغوية بمثل هذا الحجم لاستخدامها في التطبيقات المتعلقة بتمييز 
الأصوات وتحويل الأصوات اللغوية إلى مكافئها التحريري وغير ذلك. ولهذا 
نعتقد أن بناء الذخائر اللغوية حاليًا ينبغي أن يقترن بسعي حثيث نحو جمع ما 
يمكن جمعه من المواد اللغوية حتى نتمكن من بناء ذخائر لغوية فائقة.الحجم. 
إلا أن مشكلة إنشاء هذا النوع من الذخائر اللغوية تتمثل في كيفية التوصل 
إلى وسيلة لتنظيم المواد اللغوية وتصنيفها في تلك الذخيرة حتى يمكن إتاحة 
الفرصة لإعادة استدعائها Ley‏ يتناسب مع التوجهات المختلفة للبحث cog alll‏ 
ومساعدة الباحثين على تكوين ذخائر نصية متنوعة من رحم الذخيرة الأم 
لأغراض بحثية معينة. على سبيل المثالء إذا أردنا أن نستطلع قوائم 
المفردات والمصطلحات المستخدمة في مجال ماء يمكننا أن نجتزئ من 


الذخيرة الأم ذخيرة متخصصة تساعدنا على استخراج تلك المعلومات. 


ثانيًا: المرجعية والتوازن 
الموضوع الآخر المتصل باستاتيكية الذخيرة اللغوية أو ديناميكيتها هو 
الشروط الواجب توافرها في النصوص اللغوية حتى يمكن اعتبارها مناسبة 
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يمكن الاعتماد عليها في البحث اللغوي؛ وفي الحقيقة yi‏ هذا التساؤل من 
الموضوعات الشائكةء حتى الآن لم يتوصل العلماء ران كته شرل 
المقاييس التي تغطي للذخيرة اللغوية مرجعية علمية ومعايير óna‏ لتحقيق 
توازن النصوص في داخلها. 

وقد سبق أن أشار ليتش )1991 I Leech:‏ إلى أن مدى مرجعية 
الذخيرة اللغوية يعود إلى قدرتها على استخلاص معلومات لغوية تمثل اللغة . 
في إطارها العام أو المتخصص حسب توجهات البحث اللغوي. وقديمًاء كانت 
الهيكلية التي بُنيت على أساسها ذخيرة براون (Brown)‏ أو ذخيرة لوب 
(LOB)‏ تعتمد على مراعاة الدقة في لمن ولذلك تم الاتفاق على أن 
المادة اللغوية في هاتين الذخيرتين تمثل مرجعية للنموذجين ين البريطاني 
والأميركي من اللغة الإنجليزية US‏ على حدة. 

وفي حقيقة الأمرء توصل العلماء مؤخرا إلى حكم على مقاييس 
المرجعية ومعايير التوازن في الذخائر اللغويةء إلا أن ذلك الحكم لا يتعدى 
كونه حكما تقريبيًا وليس قاطعا. Ld‏ جوهر المشكلة فهو: ما الشيء الذي 
تمثله الذخيرة اللغوية؟ لقد بحث العلماء عشرات السنوات في تحليل الكلام 
والدراسات المتعلقة بعلم اللغة الاجتماعي» وعلى الرغم من أن العينات 
اللغوية لا تكفي للتعبير عن أسلوب أو موضوع لغوي معينء فإنه ما Jj‏ 
هناك من يعتقد أن الذخيرة اللغوية المكونة من كم كبير من النصوص قادرة 
على أداء تلك المهمة. خلاصة القول: إن تلك النماذج اللغوية يمكن استخدامها 
فقط للتعبير عن جوهر. اللغة. على سبيل المثال عندما نتناول. علم الصوتيات 
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في لغة ماء على الرغم من عدم إمكانية تشابه الأصوات بين متحدثي اللغة 
الواحدة» فإننا نستطيع استخلاص النظام الصوتي لتلك اللغة دون أدنى 
صعوبة. وعلى هذا فإن بناء المعاجم الكبرى والوصف النحوي لهيكل لغة ما 
لا يخرج عن هذا المفهوم الذي يقدم وصفا إجماليًا للغة. 

وهناك إشكالية أخرى تظهر عند تصميم الذخائر اللغوية وهي كيفية 
ضمان تحقيق توازن بين الموضوعات المختلفة المكونة لبنية الذخيرة اللغوية؛ 
فقد كانت غالبية الذنخائر اللغوية في المراحل الأولى تنحاز للمستوى 
التحريري من اللغةء عطي السلطة الأعلى لهذا الشكل اللغوي من 
النصوصء لدرجة أنهم كانوا لا يستخدمون إلا النصوص التحريرية لبناء 
الذخائر اللغوية. والسبب في ذلك يرجع إلى سهولة التعامل مع النصوص 
المكتوبة باستخدام الوسائط الإلكترونية(') لدرجة أنه في الجيل الثاني مسن 
الذخائر اللغوية كبيرة الحجم مثل ذخيرة بي إن سي BNC‏ التي يصل حجمها 
إلى مائة مليون كلمة لم تتجاوز نسبة المصادر اللغوية الشفهية بها مقدار 
من إجمالي حجم الذخيرة. وعلى العكس من ذلك نجد أن بعسض 
الذخائر اللغوية مثل ذخيرة آي سي إي JEG ICE‏ المادة الشفهية بها نسبة 
۰ من إجمالي حجمهاء أما المادة التحريرية فتمثل 904٠‏ فقط. وهذا 
النوع من الذخائر يمثل أقلية من بين إجمالي عدد الذخائر الموجودة حتى 





)‘( لا يخفى عن القارئ أن قدرة الحاسب الآلي على التعامل مع المستوى التحريري من 
اللغة قد سبقت المستويات الأخرى؛ لذلك تأخر تدوين اللغة في إطارها المنطوق داخل 
الذخائر اللغوية IRS‏ عن المكافئ التحريري لها. (المترجم) 


72 


الآن. حتى لو تحدثنا عن ذخيرة لغوية تحريرية؛ فمن الصعب الاستهانة 
بالإجابة على التساؤلات التي تتردد عن نوع المادة اللغوية التي ينبغي أن 
تتوفر في تلك الذخيرة. ولا توجد حتى الآن وسيلة Glas‏ عليها لتصنيف 
أنواع النصوص A‏ داخل الذخائر اللغوية. 

والأكثر من ذلكء فإننا لا نعرف حتى الآن ما النسبة التي تضمن لنا 
التوازن بين عينات النصوص في التخصصات المختلفة. لدرجة أن الذخائر 
اللغوية التي تم تصميمها بالفعل ليس من المنتظر اعتبارها Es‏ عن الإطار 
الكامل للغةء وإنما تعبر عن مجالات ونصوص وموضوعات محددة. وعلى 
الرغم من ذلك فإننا نجدها تعاني من مشكلة التوازن بين النصوص. وفي هذا 
المجالء لا يوجد إلا نوع واحد من الذخائر اللغوية لا تثار حوله إشكالية 
التوازن code‏ وهو ذلك النوع الذي يتكون من المؤلفات التي شرت في فترة 
زمنية معينة كأن تشتمل الذخيرة على المؤلفات الكاملة لأديب معين أو 
نصوص كاملة لنوع معين من الفنون الأدبية. إن توازن العينات النصية 
داخل الذخائر اللغوية لا يمكن النظر إليه على أنه ذلك الذي يتحقق بمنجرد 
النظر إلى مصدر المادة اللغوية GIS‏ نهتم بتحقيق التوازن بين العينات 
التحريرية والعينات الشفهية؛ لأنه في حقيقة الأمر لا يوجد أحد يستطيع أن 
يعرف على وجه الدقة ما نسبة الكلمات الشفهية إلى الكلمات التحريرية التي 
تتولد في أي يوم من all‏ اللغة. ولو نظرنا إلى الأمر من حيث الشكل اللغوي 
لوجدنا أن نسبة ما نستقبله أو ننتجُه bay‏ من الكلمات الشفهية أكبر بكثير من 
الكلمات التحريرية. ولكن النص المكتوب (على سبيل المثال مقال صحفي في 
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جريدة) من الممكن أن يقرأه ما يزيد عن عشرة ملايين قارئ» وعلى العكس 
من ذلك cays iy gl J yall of ag‏ تخسن old ag fads‏ وين aS‏ الا 
يمكن أن تتاح الفرصة لشخص آخر أن يستمع إليه» وعلى المنوال نفسه نجد 
أن حوارا في نشرة الأخبار من الممكن أن يصل إلى آذان عدد أكهر من 
الناس مقارنة بذلك الحوار الذي يتم بين البائع ومشتزي الحذاء. 

إن التوازن من الأمور التي يصعب تحقيقها في الذخائر التحريرية 
أيضًا. وقد ذكر سنكلير عام ۱۹۹١‏ أن أبسط ما يجب النظر إليه من قواعد 
عند بناء ذخيرة لغوية تحريرية لضمان أقل حد من التوازن هو التمييز بين 
النصوص القصصية وغير القصصيةء والتمييز بين الكتنب والجرائد ' 
والمجلات» والتمييز بين المطبوعات الرسمية وغير: الرسميةء بالإضافة إلى 
مراعاة jae‏ الكاتب وجنسه وجنسيته وغير ذلك. وهناك تساؤل آخر يتمحور 
حول التوازن بين GES‏ الذين يمثلون الأقلية وبين القراء» من بين هؤلاء 
الكاتب الذي يتمتع بالسلطة الأعلى» والكاتب الذي تحظى مؤلفاته بأكبر عدد 
من القراء. وقد توصل مصممو الذخائر اللغوية إلى أساليب أكشر تعقيدا 
وتشابكا في محاولاتهم لتحقيق المرجعية والتوازن للذخائر اللغوية. وهكذا 
تعتبر ذخيرة بي إن سي BNC‏ خير نموذج لذلك. 

ناقشت سومرز (Summers:1991)‏ بعض الإشكاليات el‏ التي 
ينبغي التفكير فيها لجعل الذخيرة اللغوية تتصف بالمرجعيةء وقد تنبهت إلى 
Ul‏ حتى لو أخذنا ذخيرة لغوية تحريرية يصل حجمها إلى مليون كلمة فإن 
تلك الذخيرة ستظل في إطار الذخائر الصغيرة جذا. وذلك إذا قارناها 
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بمضمون مقالات الجرائد وبالمقالات العلميةء فسوف نجد أن هناك اختلافا 
بينهما من حيث طبيعة المفردات. وطبقا لتلك الملاحظة دعت سومرز إلى 
البدء ببناء الذخيرة باتباع أسلوب موضوعي لاختيار العينات. ثم Bs‏ ذلك 
تعديل محتوى الذخيرة طبقا لتحليل يتم عليها بغرض خلق التناسق بين المادة 
اللغوية لتحقيق التوازن فيما بين العينات اللغوية الواردة فيها. وقد ذكرت لنا 
سومرز العديد من الوسائل التي LESS‏ من اختيار النصوص التحريريةء منها 
مدى تمتع النصوص بقيمة علمية 'مدى تأثير تلك النصوص" وأسلوب اختيار 
العينات العشوائيةء ودرجة انتشار النص وذيوعه؛ أو درجة إقبال القراء 
عليه» ومن É‏ نجد أن النصوص الصحفية ستكون أكثر النصوص التي JË‏ 
عليها جمهور القراء؛ ومدى إمكانية الاطلاع على تلك النصوصء ومدى 
توافر معلومات إحصائية عن النصوص الأكثر تداولا بين القراء وأخيرا 
مدى الخبرة في استخدام اللغة في عمل وصف دقيق لطريقة اختيار 
النصوصء وما إلى ذلك. وبطبيعة الحال» فإن الممارسة العملية لبناء ذخيرة 
لغوية لا بد أن تجمع بين الأساليب السابقة ابقة مثل اللجوء إلى all‏ على مدى 
تأثير قوة انتشار نوع معين من النصوص على إمكانية اختيار هذا النوع 
. داخل الذخيرة اللغوية وما إلى ذلك. 

AREA 
خلالها من العناصر المهمة جدًا. فالمؤلفات التاريخية ال شهيرة قد‎ Gopal 
تصبح موضع اهتمام قطاع عريض من القراء أو أنها قد تفقد تفقد تأثيرها. ومن ناحية‎ 
قد‎ (King James) أخرى نجد أن الكتب الدينية مثل الكتاب المقدس للملك جيمس‎ 
عدة مئات من السنين ولكنه ما زال مؤثرًا حتى الآن.‎ Mia تمت ترجمته‎ 
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يلجأ مصممو الذخائر اللغوية في الصين Lille‏ إلى عناوين 
الموضوعات والشكل الأدبي للنصوص لتحقيق التوازن داخل بنية الذخائر. 
وقد طرّحت جامعة اللغات والثقافة ببكين pd pe‏ فكرة لبناء ذخيرة لغوينة 
كبيرة الحجم تعتمد على مفهوم درجة تداول النصوصء كمعيار لمرجعية . 
المادة اللغوية وتوازن الموضوعات داخل الذخيرة. 


:Us‏ الحجم 

3 كيف يمكن الوصول بالذخيرة اللغوية إلى درجة يمكن القول معها: إنها 
متوازنة وتتمتع بمرجعية لغويةء بالإضافة إلى إمكانية استخدامها في عمل 
دراسات مقارنة؟ تتوقف Aula)‏ هذا السؤال على جودة المادة اللغويةء إلا أنه 
في بعض الأحيان يتم النظر إلى عدد النصوص المكونة للذخيرة: وهذا الأمر 
لا يتعلق فقط بعدد الكلمات داخل الذخيرة ولكن يتطرق Lead‏ إلى مدى تنوع 
النصوص التي تحتويها الذخيرةء وعدد الكلمات التي يضمها كل نوع من هذه 
النصوص وما إلى ذلك. وفي الحقيقة أن نطاق المادة اللغوية ومرجعيتها 
يحددان مدى ملاءمة الذخيرة اللغوية للاستخدام» ومدى قدرة الباحثين على 
الاعتماد عليها في البحث العلمي. ولكننا يجب أن نؤكد مرة أخرى أن كر 
حجم الذخيرة اللغوية لا يعني بالضرورة جودتهاء وإنما تتحدد تلك الجودة 

بناءَ على مدى قدرتها على أن GES‏ اللغة في إطارها العام. 


. حجم المادة اللغوية‎ -١ 
في سبعينيات القرن العشرين كانت الذخائر اللغوية التي يصل حجمها‎ 
إلى مليون كلمة تبدو كبيرة الحجم؛ وكانت الحاسبات العملاقة في ذلك الوقت‎ 


76 


تستغرق عدة ساعات لعمل فهرسة لكلمات إحدى الذخائر اللغوية. وفي 
الثمانينيات أصبحت فهرسة هذا النوع من الذخائر لا تستغرق أكثر من عشر 
ثوان فقط. وأصبح الجيل الجديد من الذخائر اللغوية مثل ذخيرة كوبيلد 
‘(Cobuild)‏ وذخيرة لونجمان - لانكاستر (Longman/Lancaster)‏ تستخدم 
تقنيات المسح الضوئي لتحويل النصوص الورقية إلى مكافئها الرقمي» الأمر 
الذي سَهّل عملية إدخال النصوص إلى ذاكرة الحاسب بأعداد كبيرة. ولهذاء 
فقد صاحب ذلك ازدياد في حجم تلك الذخائر اللغوية» وقد اقترح سنكلير عام 
PSs 144)‏ إنه بالإمكان بناء ذخيرة لغوية ذات فائدة وصغيرة الحجم 
تتراوح بين عشرة أو عشرين مليون كلمة. ولكننا إذا أردنا أن نقتم وصفا 
للنظام اللغوي بأكمله يُعْتَمَد عليهء فإن هذا الحجم يظل صغيرًا إلى as‏ ماء 
لدرجة أن هناك من يعتقد أن الحدود HV SHEN‏ حجم النصوص يكاد يكون 
النقيصة الملازمة لبنية الذخائر اللغوية. على سبيل المثال نجد أن سنكلير قد 
سبق له أن أشار في عام ١13١‏ قائلا: إننا حتى لو نجحنا في بناء ذخيرة 
لغوية من مليار كلمة فسوف JES‏ أمامنا معلومات لا تظهر في قوائم 
المفردات عن الحالات النادرة لأنواع الكلمات. وفي الحقيقة أن هذا الرأي هو 
ما يشير إليه قانون زييف (Zipf's Jaw)‏ القائل: إننا لو رمزنا بالرمز۴" إلى 
عدد مرات تكرار الكلمات من الأكبر فالأقل في الجدول التكراري للكلمات؛ 
وأخذنا ترتيب كل كلمة في ذلك الجدول من الأقل فالأعلى ورمزناله 
بالرمز"”" (Rank)‏ وكانت: 

r= I,2,3,... 
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فسوف نجد أن هناك تتاسبًا عكسيًا بين" و r‏ بمعنى أن: 


k=r*f 


f=k/r 
حيث تشير "2" إلى قيمة ثابتة.‎ 

ولا يصعب علينا ملاحظة أن هناك دالة يمكن تمثيلها بخطين بيانيين 
ھا وت رات رر الكلمات ٠۴‏ والآخر يمثل ترتيب الكلمات r‏ 
في الجدول التكراري. وقد أثبتت الدراسات التي تمت على العديد من الذخائر 
اللغوية صحة قانون زييف: فهناك عدد قليل من الكلمات التي تتمتع بنسبة 
تكرار عالية قد عَطْت إجمالي are‏ مرات J Sil‏ لمعظم الكلمات المكونة 
للذخيرة اللغويةء ولوحظ Gaj‏ أن أكثر من نصف ase‏ الكلمات في تلك 
الذخيرة اللغوية لم يظهر إلا مرة واحدة. وأثبتت دراسة أخرى cael‏ في 
السنوات الأخيرة أن قانون زييف لا يصلح فقط للاستخدام في دراسة توزيع 
الكلمات داخل AAN‏ وإنما يُستخدم أيضًا في دراسة توزيع القواعد النحوية 
في الاستخدام اللغوي. فمن ناحيةء وجدنا أن عددا قليلاً من القواعد النحوية 
قد غطى إجمالي عدد مرات تكرار معظم الظواهر النحوية الأخرى» ومن 
ناحية أخرى وجدنا أن هناك العديد من القواعد لم يظهر إلا مرة واحدة داخل 
الذخيرة اللغوية. والطريف أننا اكتشفنا أن القواعد النحوية كانت تتزايد بزيادة 
حجم الذخيرة اللغوية. وقد cable‏ تلك النتيجة الإحصائية تحديًا كبيرًا أمام 
0 الفرضيات الشهيرة التي طرحها تشومسكي التي تقول: إن قواعد اللغة 

محدودة في حين أن عدد الجمل داخل اللغة لا نهائي. 
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ما عدد العلامات التي نحتاجها إذا أردنا أن نقدم وصفا كاملا لإحدى 
٠‏ اللغات؟ تشير الإحصاءات إلى أن نسبة 4٠‏ - 9960 تقريبًا من إجمالي عدد 
الكلمات المكونة لذخيرة لغوية يصل حجمها إلى مليون كلمة لا يتكرر غير 
مرة واحدة. وقد AGH‏ كلا من رندل وستوك PN (Rundle and Stock)‏ عام 
7 في حديثهما عن علم المعاجم القائم على الذخائر اللغوية أن كلمة 
E "Break’‏ ع ع كه ep‏ 
لونجمان/لانكستر (Longman/Lancaster)‏ فإن ase‏ مرات تكرار تلك 
الكلمة في تر كيب مثل: "news breaking"‏ بمعنى "انتشار الأخبار” كان قليلا 
إلى الحد الذي لا يمكن معه إعطاء معلومة لمؤلفي المعاجم أن هاتين الكلمتين ٠‏ 
تؤلّفان bee‏ مصطلحًا ينبغي أن يَرِد في المعجم. ولكن إذا اعتبرنا أن ظهور 
الكلمة أو التركيب مرة واحدة غير كاف» إذن فكم عدد مرات التكرار التي 
يمكن أن A‏ إمكانية النظر بعين الاعتبار إلى مصطلح أو معنى كلمة إذا 
تكررت Jala‏ الذخيرة اللغوية؟ على سبيل المشال co fal‏ دراسة على 
ذخيرتي لوب (Lob)‏ وبراون (Brown)‏ فلوحظ أن %۹۰ من مرات تكرار 
كلمة ela "Circumstance"‏ بصيغة الجمع ‘Circumstances’‏ ومن ial‏ 
أخرى لوحظ أن كلمة من الكلمات التي تتمتع بمعدل تكرار عال في 
الإنجليزية ككلمة "at!‏ قد ظهرت ٠٠٠١‏ مرة مقترنة بكلمات أخرى» وهذا 
الرقم كبير جدًا. وبالنسبة إلى ple‏ المعاجم أو أبحاث المفردات والقواعد فإنه 
كلما تضخمت المعلومات المستخرجة آليّا من الذخيرة اللغوية زادت الحاجة 
إلى معالجتها يدويّاء وهذا ما يصعب التعامل معه؛ فالكلمة إذا تجاوز عدد 
مرات اقترانها مع كلمات أخرى ٠‏ مرةء سيمثل ذلك أكبر تحدٌّ يواجه 
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صناع المعاجم Led‏ يتعلق بإشكالية تحليل البيانات. ومن هناء am‏ أن علماء 
اللغة ومؤلفي المعاجم يطالبون بضرورة وجود نوع من البرمجيات والتقنيات 
الفعالة تساعدهم في أداء أعمالهم من أجل استخلاص أفضل النماذج اللغوية 
من بين HS‏ اللغوية. إن هذا ما يحدث عند تحليل المفردات 
ذات معدل التكرار الأعلى داخل الذخيرة اللغوية. Sling‏ على ذلكء يمكننا 
القول: إن كبر حجم الذخيرة اللغوية يتسبب في ظهور بعض الآثار الجانبية 
عند التحليل اللغوي. وعادة ما نجد أن تلك الإشكاليات يتم التغلب Lele‏ 
مباشرة على الحاسب الآلي في أثناء انتقاء العينات. ولكن بالنسبة إلى 
التراكيب التي تظهر مرة واحدة داخل الذخيرة اللغوية يكون هناك حاجة لأن 
تُصنف Jala‏ قائمة فرعية؛ ثم نقوم بالبحث عن الأمثلة التي ترد فيها تلك 
التراكيب في ذخائر لغوية أكبر حجما. 

وقد أظهرت الدراسات أن ذخيرة يصل حجمها إلى مليون كلمة مشل 
ذخيرة لوب (Lob)‏ أو ويلنجتون (Wellington)‏ تحتويان تقريبًا نحو مائة 
كلمة ورد ذكرها أكثر من ألف مرة. بالإضافة إلى أن هذه القائمة نفسها من 
الكلمات عندما Cie ye‏ على ذخيرة بي إن سي (BNC)‏ البالغ حجمها مائة 
مليون كلمةء وأجد أن معدل التكرار قد تضاعف بصورة كبيرة ليصل إلى 
bye Aves‏ وأن هذا العدد (ال١٠٠‏ كلمة) قد غطى ما يقرب من HAO‏ 
من إجمالي عدد مرات تكرار الكلمات. Ld‏ ال Wo‏ الباقية من عدد مرات 
التكرار (التي يصل عددها خمسة ملايين مرة) فقد اقتصرت على حوالي 
خمسمائة Call‏ كلمة فقط. 
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ولذلك إذا أردنا أن ندرس الظواهر الصرفية داخل لغة ماء وعلى 
الأخص إذا كان هدفنا وضع توصيف دقيق للكلمات ذات معدل التكرار 
المنخفض وأساليب اقترانها مع الكلمات الأخرى ستكون حاجتنا أكبر إلى 
الذخائر اللغوية كبيرة الحجم. ولكن إذا تعذر التعامل مع البيانات الكبيرة فلن 
يكون من المفيد في ذلك الوقت الاستعانة بمثل هذا النوع من الذخائر. حتى 
إذا استطعنا بناء ذخيرة لغوية كبيرة وجمعنا في داخلها مثل حجم المحيط من 
المواد اللغويةء فإذا لم يكن تصميم هذه الذخيرة اللغوية متميزاء لن نتمكن من 
تقديم وصف لغوي من خلالها. ely‏ على هذا المفهوم يمكننا القول: إن 
الذخيرة اللغوية كبيرة الحجم ليس بالضرورة أن تكون أكثر -تمثيلاً Wall‏ ما- 
by‏ عن الذخيرة الأقل حجمًا. وفي المرحلة الراهنة لا يمكننا أن نقطع بمدى 
ما يجب أن يكون عليه حجم الذخيرة اللغوية العامة أو المتخصصة. ول ذلك 
يرى الكاتب ومعه محللو الذخائر اللغوية أنه من الأفضل الاهتمام بجودة 
المادة اللغوية Yay‏ من الإفراط في الاهتمام بحجم الذخيرة اللغوية ونطاقها. 

ويشير المرجع رقم "' في قائمة المراجع إلى أننا لو أردنا دراسة 
عروض اللغة الإنجليزية على سبيل المثال» فإن ذخيرة لغوية تصل إلى مائة 
ألف كلمة تكفي لهذا الغرض. وإذا أردنا أن cg Jad‏ تحليلاً يمكن الاعتماد عليه . 
عن استخدامات الفعل في اللغة الإنجليزية فسوف يمكننا تنفيذ هذه a gall‏ 
اعتمادا على ذخيرة لغوية يصل حجمها إلى خمسمائة ألف كلمة؛ وأن دراسة 
التراكيب النحوية والكلمات ذات معدل التكرار الأعلى تحتاج غالبًا إلى ذخيرة 
تتراوح ما بين خمسمائة ألف ومليون كلمة. كما يمكننا أن نجري مقارنة بين 
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نتائج تحليل المادة اللغوية في ذخيرة كبيرة الحجم مثل دخيرة بي إن سي 
(BNC)‏ وبين نتائج التحليل في ذخائر صغيرة مثل لوب (LOB)‏ وآي سي 
(ICE) o!‏ لكي نتوصل إلى حل الإشكاليات المتعلقة بحجم الذخيرة اللغوية 

ومدى مرجعيتها. وبهذه الطريقة يمكننا التوصل إلى معرفة حجم الذخيرة 
. اللغوية الذي يناسب كل غرض من الأغراض البحثية. وبصورة عامة يمكننا 
القول: إنه مهما كان حجم المادة اللغوية فغالبًا ما تزداد نسبة الاعتماد على 
نتائج التحليل اللغوية لتلك المادة والاعتراف بها كلما ازداد عدد العينات 
اللغوية التي تغطي قطاعًا Cay ye‏ من التخصصات داخل اللغة. 


-Y‏ عدد العينات 

القضية الأخرى المتعلقة بحجم الذخيرة اللغوية هي عدد العينات 
المأخوذة Jala‏ الذخيرة. ففي الجيل الأول من الذخائر اللغوية مثل ذخيرة 
لوب (LOB)‏ وذخيرة براون (BROWN)‏ وصلت العينات BLY‏ داخل 
هاتين الذخيرتين إلى ٠٠١‏ عينةء وكان حجم النصوص في كل عينة لا يقل 
عن ٠٠٠١‏ كلمة. من بينها عدد من العينات كانت تَمَثْل Éa‏ كاملاء أما 
غالبية العينات فكانت عبارة عن جزء من نص. ونظرا إلى أن النصوص 
التي تَقَتَطّف من مقدمة الكتب وخاتمتها تت تتميز أنها تعبر تعبيرا دقيقا عن 
الخصائص اللغوية المختلفةء لذلك فإن الذخائر اللغوية التي تی بأسلوب 
العينات النصية لا يمكن أن i‏ عن الإطار العام للغة إلا إذا كانت تلك 
العينات تشمل جميع أنواع النصوص اللغوية» وإذا لم يراغ ذلك في اختيار 
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العينات فسوف 5 الذخيرة بالملامح العامة للغة. وعلى العكس من ذلك إذا 
تم ely‏ الذخيرة على أساس النصوص ALAM‏ فسوف يؤدي ذلك إلى نقص 
عدد العينات وقلة أنواع النصوص ABA‏ داخل الذخيرة. ومن ثم يؤثر ذلك 
في قدرة الذخيرة على أن OR‏ للغة. ولا يمكن التغلب على تلك 
المشكلة إلا بكبر حجم الذخيرة اللغوية. 

وقد قام (Biber:1993) s‏ بعمل دراسة عن توزيع عشر 
خصائص لغوية داخل ذخيرتي لوب (LOB)‏ وإل إل سي (LLC)‏ وذلك من 
خلال 55 زوج من العينات اللغويةء وقد اختار هذه العينات من مساحة 
عريضة من النصوص الشفهية والتحريرية. حيث كان يختار كل زوج من 
العينات في إطار ألفي كلمة من النصوص Ls‏ بالتساوي على الذخيرتين 
وفي تخصص واحدء ثم يدرس الاختلافات اللغوية بين الاثنين من خلال تلك 
العينات. وكانت النتيجة التي توصل إليها هي أنه يكفي وجود مابين 
٠ 2‏ كلمة حتى. يمكن أن تكون العينة ofits‏ عن الخصائص 
اللغوية Gail‏ ما. بالإضافة إلى أنه يَعتقد أن عدد 8٠١ - ٠١‏ عينة لغوية 
مختلفة تكفي لدراسة الاختلافات اللغوية الشائعة. 
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الفصل الثاني 
بناء ذخبرة لغوية 

يشير المرجع رقم P‏ في قائمة المراجع إلى أن وضع تعريف للذخيرة 
Ay pall‏ وتحديد إجمالي حجم النصوص المختارة وأنواعهاء ونسبة تمثيل كل 
نوع من أنواع النصوص داخل الذخيرة من أصعب الأعمال التي تواجه alle‏ 
اللغة في أثناء بناء الذخيرة اللغوية. ويرى بعضهم أن هذا العمل ينبغي أن 
يُوكل إلى العلماء المتخصصين في علم اللغة الاجتماعي للقيام به. أما علماء 
اللغة فينبغي أن تقتصر بحوثهم على إجراء تحليل للأمثلة اللغوية التي 
تحتويها الذخيرة اللغوية وتوصيفها. ولكن واقع الأمر حاليًا يُشير إلى أن 
علماء اللغة وخبراء الحاسب هم الذين يقومون بأعمال التصميم الخاصة 
بتوزيع العينات داخل الذخيرة اللغوية» ومما لا شك فيه أن هذا العمل لا يخلو 
من صعوبة بالغة. 

إن أول شيء يتم التفكير فيه عند بناء ذخيرة لغوية هو الغرض الذي 
تبنى من أجله تلك الذخيرة» وهل هي ذخيرة للأغراض العامة أم الخاصة. 
ew‏ ذخائر الأغراض العامة كمية كبيرة من الأمثلة اللغوية للبحث اللغوي في 
جميع المجالات» Ld‏ ذخائر الأغراض الخاصة فتستخدم في إنتاج التطبيقات 
| على مغاتجة اللات الطيعية: و فف :رادها تمل مجان لرا ةا 
ولذلك ينظر البعض إلى هذا النوع من الذخائر اللغوية على أنه إحدى مراحل 


85 


ابتكار تلك التطبيقات وتطويرها. ويتمحور الغرض من هذا الباب حول 
التعريف بالذخائر اللغوية التي تَصَمّم لأغراض الاستخدام العام. 
أولا: مصادر المادة اللغوية 

ps‏ في ذلك وسائل إدخال البيانات المتاحة بالفعل» التي تتعدد 
أشكالها في جمع المواد اللغوية إما عن طريق تحويل النصوص الورقية إلى 
نسخة رقمية أو عن طريق الاستعانة بالنصوص الرقمية الموجوده بالفعل. 
-١‏ تحويل النصوص الورقية إلى Gi‏ رقمية 

هناك طريقتان للمساعدة في تحويل النصوص الورقية إلى نسخ 
رقمية'ء أولاهما: 

(Í‏ طريقة المسح الضوئي 

زادت في الآونة الأخيرة تقنيات التمييز الضوئي للحروف المطبعية 
بصورة تدريجية؛ ولذلك فإن كميات كبيرة من النصوص المكتوبة بالحروف 
المطبعية يمكن أن تعتمد على تلك التقنيات حتى يمكن تحويلها إلى نسخ 
رقمية. وتجنبنا هذه الطريقة اللجوء إلى لوحة المفاتيح لإعادة كتابة محتويات 





)© الجدير بالذكر أن علماء اللغويات الحاسوبية العرب لم ينجحوا حتى الآن في حل تلك المشكلة بالنسبة 
إلى اللغة العربية» وجميع المحاولات المطروحة في هذا المجال لا ترقى لمستوى الاس تخدام؛ يسبب 
القصور الملحوظ في دراسات المعالجة الآلية لمنظومة الكتابة باللغة العربية. وعلى الجانب الآخر نجد 
أن مشكلات تحويل الكتابة الصينية بشقيها المطبوع واليدوي إلى مكافئ إلكتروني قد تم حلها بشكل 
كامل من قبل العلماء الصينيين بأنفسهم مع بداياته القرن الحادي والعشرينء على الرغم من الصعوبات 
الهائلة التي اعترضتهم بسبب طبيعة اللغة الصينية التي تعتمد على الرموزء الأمر الذي أل اللغفة 
الصينية للدخول إلى مستويات عصر المعلوماتية بكفاءة غير مسبوقة. (المترجم) 
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الكتب al pall‏ تسجيل محتوياتها في الذخيرة اللغوية. على سبيل المثال ES‏ 
في الأسواق الصينية We‏ برمجية تتبع تلك التقنية في إدخال النصوص 
المكتوبة بالحروف المطبعية إلى الحاسب وتحويلها إلى نسخة رقمية. وقد تم 
تطوير هذه البرمجية بمعرفة قسم علوم الحاسب وتقنياته بجامعة تشين خوا 
الصينية. ولكن ينبغي الانتباه إلى أن استخدام هذا الأسلوب في تمييز 
النصوص المطبوعة لا يخلو من بعض الأخطاءء ويحتاج الأمر إلى إجراء 
تصويبات يدوية لتصحيح تلك الأخطاء التي تقع من البرمجية في أثناء عملية 
.تمييز النصوص وإدخالها إلى وسائط التخزين الإلكترونية داخل الحاسب. 

ب) إدخال النصوص إلى الحاسب يدويًا عن طريق لوحة المفاتيج 

يتم اللجوء إلى استخدام هذا الأسلوب مع أنواع النصوص التي لا يمكن 
استخدام أسلوب التمييز الضوئي لها. وهذا النوع من النصوص يشمل 
نصوص الفاكسنات» والمذكرات. الشخصيةء والتسجيلات الصوتية وغير ذلك. 
ففي بعض الأحيان يكؤن استخدام أسلوب التمييز الضوئي للنصوص غير 
فعال بالدرجة الكافية؛ حيث يحتاج إلى وقت كبير لإجراء تصويبات يدوية 
على النسخة التي تم تمييزهاء لدرجة أن يكون من الأفضل الاعتماد على 
Yad’‏ ذي Alle tells‏ فن ya gual ALS‏ ينوا Cua gle‏ لكعويل ذا 
النوع من النصوص إلى نسخ رقمية. في البدايات الأولى لإنشاء الذخائر 
اللغوية باللغة الصينية» كان المتخصصون يلجئون إلى مثل هذا الأسلوب في 
العمل؛ ففي بداية ثمانينيات القرن العشرين» aud ald‏ علوم الحاسب بجامعة 
شان شي بتكليف من اللجنة القومية للغة الصينية بعمل دراسة إحصائية عن 
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معدل تكرار الرموز داخل اللغة الصينية عن طريق بناء ذخيرة لغوية 
باستخدام هذا PFI NI‏ حيث تم تكليف بعض الأشخاص المهرة بكتابة 
محتويات جريدة الشعب .اليومية خلال شهر وتحويلها إلى نسخة إلكترونية؛ 
وبعد ذلك تم استخدام الحاسب في إنهاء الأعمال الخاصة بإحصاء معدل 
تكرار الرموز داخل تلك الذخيرة. 
一‏ استخدام النصوص الرقمية الموجودة بالفعل 

أصبح من الشائع الآن توافر نسخ إلكترونية من الجرائد والمجلات 
والكتب وغير ذلك من المواد المطبوعةء Ky‏ إلى مثل هذه 
النصوص الوسيلة المباشرة لبناء الذخائر اللغوية» وفي تلك الحالة ينحصر 
عمل مصممي الذخائر على القيام بالتهيئة اللازمة لهذه النصوص؛ حيت 
يقومون بتحويلها إلى النمط الرقمي المناسب لبنية النصوص داخل الذخيرة 
اللغوية بما ES‏ من التعامل معها فيما بعد. 

وفى الحقيقة أن عددًا كبيرًا من مشروعات بناء الذخائر اللغوية يتم من 
خلال الجمع بين الأساليب السابقة في إدخال النصوص إلى ذاكرة الحاسب 
وتحويلها إلى نسخة رقمية؛ ee‏ 
أنو اع النصوص المتاحة» التي تَعْتبّر المادة الخام لبناء الذخيرة اللغوية. فعلى 
سبيل المثال» نجد أن النصوص لمعيه TABA PEITO PEE, bi‏ 
صوتيًا يناسبها استخدام لوحة المفاتيح لتحويلها إلى نصوص إلكترونية. وعلى 
العكس من cell‏ نجد أن العديد من نسخ الجرائد والمجلات أصبحت تتوافر 
في شكل إلكترونيء أما الكتب المطبوعة بالأسلوب التقليدي Fads‏ استخدام 
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برنامج مسح ضوئي ذي كفاءة عالية كوسيلة سريعة وفعالة لتحويل نصوص 
تلك الكتب إلى المكافئ الزقمي لها. 
ثانيًا: تصميم الذخيرة اللغوية 

مرحلة تصميم الذخيرة اللغوية تشمل تحديد حجمهاء ونطاق النصوص 
الكلي pill‏ وبنية التصنيفات التي تندرج تحتها تلك النصوص» التي ES‏ 
من البحث داخل الذخيرة وغير ذلك من الموضوعات التي تمس عملية جمع 
النصوص. ويقدم المرجع رقم من قائمة المراجع وصفا دقيقا لما يتعلق 
بتصميم الذخائر اللغوية» وسوف نقدم فيما يلي شرحا مبسطا لبعض 
-١‏ توزيع المادة اللغوية داخل الذخيرة 

من ناحية الجوهرء Es‏ الذخيرة اللغوية كيانا يضم في alala‏ جميع 
أنواع النصوص. ولذلك فإن مسألة اختيار أنواع النصوص التي يتم التعامل 
معها من العناصر التي لها أكبر الأثر في كفاءة الذخيرة اللغوية. وسوف 
نتحدث فيما يلي عن بعض النقاط التي ينبغي أن يكون لها الأولوية في 
التفكير عند بناء الذخائر اللغوية: 

|( المستويان الشفهي والتحريري للغة 

عند بناء الذخيرة اللغوية ينبغي أن نُحَدّد سابقًا ما إذا كانت ذخيرة 
للنصوص التحريرية ob‏ للنصوص الشفهية» ab‏ أنها تجمع بين النوعين. 
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والجدير بالذكر أن هناك العديد من الذخائر اللغوية لا تضم في داخلها إلا 
نماذج لنصوص تحريرية. وهذا من شأنه أن يتسبب في كون الذخيرة غير 
معبرة عن اللغة ولا تعكس الواقع العملي للاستخدام اللغوي؛ حيث يعتقد 
العديد من علماء اللغة أن اللغة الشفهية أكثر قدرة على التوجيه والإرشاد في 
عمل الدراسات الأساسية عن التكوين اللغوي» وأنه لا يوجد أي شكل من 
النصوص التحريرية يمكن أن يلعب هذا الدور بصورة كاملة. 

إلا أن عمليات جمع النصوص الشفهية أصعب بكثير من جمنع 
النصوص التحريرية. وعلى الرغم من عدم صعوبة جمع بعض أشكال اللغة 
الشفهية مثل سيناريوهات السينما ونصوص المسرح وسجلات المؤتمرات 
ومرافعات القضايا داخل a‏ والنشرات التليفزيونية» فإن اللغة التي تمثلها 
هذه الأنماط اللغوية قد C5‏ عليها بعض التعديلات؛ ومن المؤكد أننا سوف 
نعثر في متنها. على بعض آثار المعالجة الاصطناعية؛ ولذلك لا يمكن لهذه 
التصوضل md‏ عن الروح اللغوية التي يتسم بها الحوار الطبيعي. وغالبًا 
ما نطلق على هذا النوع من اللغة الشفهية مصطلح اللغة الشفهية القياسية. 

عند بناء الذخائر اللغوية الصينية تكون النسبة الأكبر هي النصوص 
التحريرية؛ مثل الجرائد والكتب وغير ذلك. وتقل نسبة المكوّن الشفهي داخل 
الذخائر الصينية وبخاصة ذلك الجزء المعبر عن الفوارق الطبيعية بين الأشخاص. 

ب) المستوى الرسمي والمستوى الأدبي من اللغة 

المادة اللغوية يمكن اختيارها من بين العديد من الأشكال اللغويةء فقد 
تكون تلك المادة في شكل رسمي أو غير رسميء أو قد تكون لغة أدبية أو 
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لغة inle‏ فاللغة الرسمية eis‏ الحصول عليها مقارنة باللغة غير الرسمية. 
أما اللغة الأدبية Jegi‏ رصدها مقارنة باللغة العاديةء أما الرسائل الكتابية 
واليوميات القصيرة غير الرسمية التي elig‏ الناس فتعتبّر الوجه الحقيقي 
الذي يُمَتل الاستخدام اللغوي في إطاره الأشمل. وبالمثل فلا توجد حاجة GY‏ 
تحتوي الذخيرة اللغوية جميع الأعمال الأدبية المعاصرة؛ حيث إن نسبة قليلة 
'منها تفي بالغرض. 

ج) مدى مرجعية اللغة 

الوظيفة الأساسية للذخيرة اللغوية هي إعطاء الإمكانية للإبحار داخل 
اللغة لاكتشاف جوهرها والعناصر القياسية المعبرة عنها. فلو كانت غالبية 
النصوص في الذخيرة تم اختيارها من أعمال أديب واحدء فمن المؤكد أن تلك 
الذخيرة سوف تتمحور بصورة كبيرة حول التعبير عن الخصائص الإبداعية 
لأسلوب هذا الكاتب» وبذلك تفقد قيمتها في إجراء البحوث اللغوية المعبرة 
عن الخصائص العامة للغة. 

وعلى المنوال نفسه نجد أن كل كاتب من ES‏ الجرائد والمجلات له 
أسلوب مختلف في الكتابةء ومن هنا فإن جمع أكبر قدر من النصوص على 
مستوى جميع التخصصات من الأمور المفيدة Éa‏ للبحث اللغوي. وإذا أردنا 
أن نجعل الذخيرة اللغوية أكثر قربًا من واقع اللغة فينبغي لنا أن نضم في 
داخلها أكبر قدر من أعمال GU‏ في مختلف التخصصات والمجالات. 

د) الفترة الزمنية للنصوص 

غالبية الذخائر اللغوية تسعى إلى تغطية فترة زمنية محددة» وبما يجعل 
المادة اللغوية AEA‏ داخل الذخيرة اللغوية i‏ عن الواقع اللغوي للغة في 
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ie ak وهذا النوع من الذخائر‎ es 
ee عه بود‎ re 


التي تطرأ على اللغة من ناحية المفردات والبناء الهيكلي لها بصورة 
تاريخية؛ وذلك عن طريق جمع عدد من الأعمال في فترات تاريخية مختلفة. 
一‏ نطاق المادة اللغوية 

عند تحديد نطاق المادة اللغوية يكون هناف حاجة إلى التفكقير في 


العناصر التالية: 
أ) حجم الذخيرة اللغوية 


هذه النقطة من أهم القضايا التي يهتم بها مصممو الذخائر اللغوية في 
بداية العمل في إنشاء أي ذخيرة. ففي الفترة الأولى من تاريخ البحوث 
المتعلقة بالذخائر اللغوية لم تكن هناك وسيلة لبناء الذخائر اللغوية إلا عن 
طريق التسجيل اليدوي للمادة اللغوية؛ حيث كان من الصعب وجود مكافئ 
رقمي للنصوص اللغوية. ولذلك كان حجم الذخائر آنذاك صغيرًا إلى حة 
بعيد. وتحت تأثير تلك الظروفء كان من الواجب توخي الدقة عند تصميم 
مخطط توزيع المادة اللغوية حتى تكون الذخيرة اللغوية معبرة عن اللغة 
بصورة ALLS‏ وإذا نظرنا إلى الأمر نظرة بعيدة المدى يمكننا oa‏ بأن 
الذخائر اللغوية سوف يتأثر حجمها تبعًا لتطور تقنيات الحاسب. وهذا ما 
يخبرنا به قانون زييف من أن نسبة توزيع الكلمات المتكررة داخل الذخيرة 
اللغوية غالبا ما تتناقص بصورة كبيرة AS‏ لتناقص عدد مرات تكرار تلك 


الكلمات داخل النصوصء على سبيل المثالء تلك الدراسة التى تمت على 
اللغة الإنجليزية التي تشير إلى أن كلمة ‘the’‏ التي ci‏ أعلى عدد لمرات 
التكرار داخل اللغة الإنجليزيةء ela‏ عدد مرات تكرارها ضعف عدد مرات 
تكرار كلمتي ۴ه "randy‏ اللتين تأتيان في المرتبة الثانية من حيث التكرارء 
وبعد ذلك يتناقص عدد مرات تكرار الكلمات بصورة سريعة إلى أن نصل 
إلى كلمة c'be"‏ التي تحتل المركز التاسع عشر من حيث الكلمات الأكثر 
تكرارًا في اللغة الإنجليزيةء فنجد أن نسبة تكرار هذه الكلمة يمثل %٠١‏ فقط 
من نسبة تكرار كلمة Lil ethe"‏ الكلمة التي تحتل المركز AL‏ وهي كلمة 
"two"‏ فتشغل Wo‏ فقط من نسبة تكرار كلمة the”‏ 

et,‏ 1 رفا لن a Gate‏ كمل راء 
لمفردات dal‏ ماء وأردنا أن تغطي دراستنا أكبر قدر من مفردات تلك AAD‏ 
فليا توسيع من حجم الذكيرة كدر اسنتطا عكار 

ب) حجم العينات اللغوية 

وأخيراء ما الحجم الذي ينبغي أن تكون عليه كل عينة لغوية؟ هذا هو 
السؤال الذي يتكرر دائمًا عند مصممي الذخائر اللغوية» ولكل منهم رأيه 
الخاص» على سبيل المثالء نجد أن ذخيرة لوب LOB‏ لا تقل كل عينة Led‏ 
عن ٠٠٠١‏ كلمةء وعلى الرغم من أن هذه الطريقة قَلّدَها العديد من العاملين 
٠‏ في بناء الذخائر اللغويةء فإن هناك as‏ من العلماء وجهوا نقذا لهذه 
الطريقة؛ حيث يعتقدون أن النصوص بهذا الحجم لا تكفي للتعبيير عن 
الخصائص اللغوية للنص الأصلي. على سبيل المثال رسائل الأخبار القصيرة 
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(مثل الجمل الإخبارية) نجد أن أسلوبها يختلف عن أسلوب كتابة التقارير 
الإخبارية؛ ولكن نظر! إلى أن حجم النصوص التي تمثل رسائل قصيرة لا 
يكفي لأن يكون في حدود ٠٠٠١‏ كلمة» فلا يمكن أن تضم الذخيرة اللغوية 
هذا النؤع من النصوص؛ ومن GB‏ لا يُتاح للذخيرة اللغوية أن تغطي مثل هذا 
النوع من النصوص الذي يقدم لنا الخصائص اللغوية للرسائل الإخبارية 
القصيرة. 

وعلى الجانب الآخر نجد أن اختيار عينة في حدود ٠٠١‏ كلمة 
للتعبير عن الخصائص اللغوية لرواية طويلة لا يمكن أن تفي بهذا الغرض؛ 
ولذلك فمن أجل أن نعوض ذلك النقص ونتلافى هذا العيب علينا اختيار 
النص بأكمله لكي يدخل في متن الذخيرة اللغوية حتى يمكن تجنب انحصار 
العينات في بعض فقرات النص الأصلي. 

ولذلك؛ فعند إتاحة الظروف يكون من الأفضل اختيار النصوص 
بأكملها. وهذه الطريقة لا يُخشى معها الوقوع في مشكلة التفاوت بين أساليب 
الأجزاء المختلفة للنص. | 

إن اختيار النصوص بأكملها أفضل من الاكتفاء باختيار عينات منها؛ 
لأن النص الكامل من شأنه أن aai‏ معلومات شاملة تساعد على البحث 
اللغوي» ومع هذه الطريقة لا يكون داع هناك للقلق من عدم الالتزام ALAN‏ 
ÉN‏ في بناء الذخيرة اللغوية. وأهم ما في الأمر هو ضمان تصميم برنامج 
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جيد لإدارة البيانات داخل الذخيرة اللغوية Ley‏ يتيح الفرصة أمام علماء اللغة 
للحصول على ما يبغون التوصل إليه عند الحاجة. 


一‏ تصميم برنامج التخزين وسجلات الحفظ 


إن الهدف من إنشاء ذخيرة لغوية هو استغلال الحقائق اللغوية 
واستخدامها في إجراء البحث اللغوي. ولذلك J‏ الالتزام بمعايير الدقة في 
تصميم وسيلة تخزين المادة اللغوية وإشارات ترميزها من الأعمال المهممة 
fhe‏ خلال عملية إنشاء الذخائر اللغوية. فلو أخذنا اللغة الإنجليزية مثالاء نجد 
أن تخزين ذخيرة لغوية سعتها مليون كلمة تحتاج إلى مساحة تخزين تتراوح 
بين A‏ و١٠‏ ميجا بايت. وإذا أضفنا علامات الترميز النحوية لمحتويات هذه 
الذخيرة سنحتاج من " إلى © ميجا بايت إضافيةء أما إذا أضفنا رموز 
التحليل النحوي فسوف نحتاج إلى ٠١‏ ميجا Cub‏ أخرى. إن عملية تخزين 
المادة اللغوية في متن الذخائر اللغوية لم تعد مشكلة؛ نظر! إلى تطور تقنيات 
الحاسب الآلي» فعلى سبيل المثال يمكننا تخزين معلومات تصل إلى مائة 
ميجا بايت على أسطوانة ليزر واحدة. إن الذخيرة اللغوية لا تكتسب قيمتها 
إلا من المادة اللغوية A‏ والمعلومات المتعلقة بها. ولذلك فعند ely‏ 
ذخيرة لغوية علينا أن نبدأ بتصميم أسلوب للاستعلام داخل الذخيرة بشكل 
منظومي» يضمن لنا ارتباط النصوص التحريرية داخل الذخيرة بمكافئها 
الأصلي سواء كان صونا أو نصنًا. وبالإضافة إلى ذلك ينبغي حفظ فهارس 
الملفات' وجميع الملفات في نسخ إضافية غير تلك التي (syed‏ عليها عمليات 
التحليل والدراسة. 

ومن ناحية أخرى نجد أننا نلجأ إلى مصادر مختلفة للحصول على 
المادة اللغويةء فلو اتبعنا أساليب مختلفة لتكويد تلك المواد اللغوية وترميزهاء 
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فسوف يؤدي ذلك إلى حدوث خلل كبير في إدارة الحاسب وسيطرته على 
تلك المواد اللغوية. ولكي نصل إلى أسلوب موحد في إدارة تلك المواد 
اللغوية نحتاج إلى استغلال ملامح النصوص واستخدامها كعلامات للترميز» 
وأكثر تلك الملامح التي نلجأ إليها هئ علامات الترقيم وأرقام السطور داخل 
النص والعلامات الخاصة ببدايات الأبواب والفصول والفقرات في النصء 
وغير ذلك. وإذا لم تكن تلك العلامات مُوَحَّدَة داخل الذخيرة اللغوية فلن 
يتمكن الحاسب من التوصل إلى معلومات ذات فائدة فيما يتعلق ببنية 
النصوص داخل الذخيرة؛ ومن Bb‏ لا يمكنه تمييز النصوص وأكوادها 
المختلفةء الأمر الذي ينشأ عنه مخرجات وبيانات خاطئة. 

في تمانينيات القرن العشرين توصل العاملون في مجال النشر إلى 
معيار قياسي لتكويد النصوص إلكترونيًا من أجل تجنب وجود تكرار غير 
مرغوب فيه في أثناء عمليات إدخال النصوصء ونتيجة لوجود لغة 
العلامات(7) التي alll‏ عليها اختصار! (The Standard SGML pil‏ 
Generalized Markup Language)‏ « أصبح المتخصصون في هذا المجال 
يستخدمونها في عمل تكويد النصوص الإلكترونية. 


)1( يُستخدم مفهوم لغة العلامات (Markup Language)‏ في مجال تكنولوجيا 
المعلومات للإشارة إلى ثنائيات من الكلمات والرموز توضع بينها المكونات النصية 
لصفحة الويب» بالإضافة إلى مجموعة من العلامات تؤدي إلى عرض مكونات 
الصفحة وفقا لمواصفات معينةء مثل نوع الخط وحجمه ولونهء وهل تعرّض البيانات 
في شكل نصي أم في شكل جدولي» وشكل محاذاة الأسطرء وما إلى ذلك من 
مواصفات تحرير النصوص. وتنتمي لغة لل SGML‏ « وال HTML‏ وال XML‏ 
إلى العائلة اللغوية نفسسهاء وتستخدم بصورة أساسية في تصميم صصفحات 
الويب.(المترجم) . 
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وبقي أن نشير إلى أنه قبل إجراء إعداد أنماط النصوص وتوحيدها بعد 
تجميعها داخل الذخائر اللغوية علينا أن نحصل على حقوق استغلال تلك 
النصوص من أصحابها الأصليين حتى لا تواجهنا مشكلة حقوق التأليف والنشر. 
4 - حماية الذخيرة اللغوية 

بعد أن th‏ الذخيرة اللغوية دائمًا ما نكتشف بها العديد من الأخطاء 
التي تحتاج إلى تصحيح» أو حتى إجراء تحسينات على بنيتها؛ ولذلك تكون 
هناك حاجة إلى إجراء صيانة يومية للذخيرة اللغوية وتطوير دائم لها. وبهذه 
الطريقة» يمكننا التوافق مع مستجدات الحاسب الآلي من حيث العتاد 
والبرمجيات» ومن Cus‏ احتياجات المستخدم أيضاء هذا بالإضافة إلى أن 
تزايد الاهتمام بأنظمة فهرسة الذخائر اللغوية وأدوات تحليلها ومعالجتهاء قد 
أدى إلى وجود dale‏ متزايدة لحماية الذخائر اللغوية. 
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الفصل الثالتٌ 
أنواع الذخائر اللغوية 


إن تنوع أشكال الذخائر اللغوية حقيقة لا يستطيع أحد إنكارها؛ ولكن al‏ 
يتوصل أحد حتى الآن إلى تسمية موحدة لكل نوع من هذه الأنواع. وقد سبق 
أن وضع دونالد ووكر Pl(Donald Walker)‏ المصطلحات الأربعة التالية 
لتسمية الأنواع المختلفة من الذخائر اللغويةء إلا أن هذه القضية مازالت 
مثيرة لجدل لم puch‏ حتى الآن. 
١‏ الذخيرة المختلطة (Heterogeneous)‏ 


هذه أبسط وسيلة لجمع المادة اللغوية داخل ذخيرة لغوية؛ حيث يسعى 
المصممون قدر الإمكان إلى جمع كل ما يمكن جمعه من أنواع النصوص 
المختلفة» ولا يكون هناك أية قواعد سابقة Led‏ يتعلق باختيار المادة اللغوية» 
je,‏ ذخيرة أيه سي إل/ دي سي آي 401/801 من الذخائر اللغوية التي 
تندرج تحت هذا النوع. وتتفق مع هذا النوع ذخيرة أو تي أيه OTA‏ 
للمستندات التابعة لجامعة أكسفوردء Code dya‏ هذه الذخيرة بين أنواع 
مختلفة من المستندات دون أي تغيير في الشكل الأصلي للمستند. 


(Homogeneous) الذخيرة المتجانسة‎ —Y 


وهي عكس النوع السابق؛ وتعتبر ذخيرة تيبوتر Tipoter‏ التابعة 
åa Sall‏ الأميركية خير مثال على هذا النوع من الذخائر؛ حيث جَمَعَت في 
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طياتها النصوص المتعلقة بالشئون العسكرية فقط Ju‏ أعط ال التجهيزات 
وتوقعات الأخطار وغير ذلك من الأمور المتعلقة بالشئون العسكرية. هذا 
وتعتبّر الذخائر اللغوية التي تصمم من أجل تخزين أعمال كاب معين من 
هذا النوع Gaol‏ 
۳- الذخيرة المنظومية (Systematic)‏ 

الغرض من إنشاء هذا النوع من الذخائر اللغوية ضمان جمع المادة 
اللغوية بما يُغطي IOU)‏ لغويًا واسعًا؛ بحيث تمثل الذخيرة اللغوية أكبر 
مساحة من اللغة. JE,‏ ذخيرة براون والذخيرة القومية الإنجليزية BNC‏ 
من الذخائر التي تحترم هذه القاعدة في جمع المادة اللغوية. وعند ely‏ هذا 
النوع من الذخائر اللغوية يتم الاهتمام بقضايا الثبات والتغير والمرجعية 
والتوازن» بالإضافة إلى القضايا المتعلقة بنطاق تغطية المادة اللغوية داخل 
الذخيرة. 
؛ - ذخيرة الاستخدام المتخصص (Specialized)‏ 

يُخْزن بتلك الذخيرة كل أنواع الذخائر المتخصصة: مثل ذخيرة العلوم 
الإنسانية بأميركا الشمالية وذخيرة لغة الأطفال Childes‏ التابعة لجامعة 
كارنيجي ميلو © «Carnegie Mellon University‏ 
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الفصل الرابع 
تعريف بالذخانر اللغوية خارج الصين 


a‏ الأساسي من علم الذخائر اللغوية هو وضع تصور عام لجميع 

ئق والقوانين اللغوية في اللغة الطبيعية؛ وذلك عن طريق عمل دراسات ' 
واقعية واسعة النطاق على المواد اللغوية. وقد بدأ العالم الغربي في إنشاء 
الذخائر اللغوية مع بداية ستينيات القرن العشرين. وعلى مدى ثلاثين Like‏ 
تمكنت العديد من الحكومات والمؤسسات الاستثمارية والتجمعات العلمية على 
مستوى العالم من إنشاء أو السعي إلى إنشاء ذخائر لغوية على جميع 
الأشكال. وسوف نعَرّف القارئ في هذا الفصل بأهم تلك الذخائر الغربية 
Tabu ad‏ 
أولاً: ذخيرة إس إي يو SEU‏ 

في عام ۹٥۹٠ء GIL!‏ عالم اللغة الإنجليزي راندولف كويرك 
Randolph Quirk‏ مشروعًا أسماه 'در اسة في استخدامات اللغة الإنجليزية" 
(The Survey of English Usage)‏ وقد gil‏ على هذا المشروع 
اختصارًا اسم (SEU‏ حيث قام كويرك في إطار خطّة محددة بجمع كمية 
كبيرة من المواد اللغوية في تخصصات مخئلفةء بالإضافة إلى أنه استغل 
٠‏ الحاسب الآلي في تخزين المواد التي جَمَعَها وتصنيفها. وقد كانت هذه هي 
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المرة الأولى في تاريخ الذخائر اللغوية التي يتم فيها اللجوء إلى حاسب آلي 
من النوع العملاق في بناء ذخيرة لغوية. وقد Cras‏ ذخيرة SEU‏ ما بين 


والتقخصصضات: 


والجدول التالي يوضح نسبة تمثيل النصوص بأنواعها المختلفة داخل 











تلك الذخيرة. 


جدول 一 Y)‏ (: هيكل المواد اللغوية في ذخيرة SEU‏ 
























































ea مويه‎ ee 
OA) مواد شفهية‎ | (YI) de gules مطبوعات )£1( | مواد غير‎ | 
(i) علوم إنسانية )1( | مسودات كتب )3( | نصوص مسرحية‎ 
علوم طبيعية ۷) | أخبار )3( | خطب رسمية )ا‎ 
Lr) aa نشرات‎ | )٤( مراسلات اجتماعية خاصة‎ | (A تعليم‎ 
: ارات إخبارية‎ 本 
0 3 pre (£) جرائد إخبارية عادية )£( | مراسلات اجتماعية عادية‎ 
١ مراسلات اجتماعية في شكل‎ | , ... 1 
x 1 )٤(ةيداع مراسلات غير رسمية‎ | (i) مؤلفات أدبية‎ 
شكل مشاحنات كنا‎ nicl 
(全 0 نقد | )0( | مذكرات‎ 
x (Y) قصص ونثر‎ | 
ke (oai ٠٠١( أصول شفهية‎ 
(Y£) حوارات خاصة غير علنية‎ + gs 48 
(1+) مشاحنات غير علنية‎ | )١( Gle خطب مُعَّدة‎ 
[a] حوارات خاصة مُعلنة‎ | )٠١( خطب ارتجالية‎ 
0 تعليقات رياضية (4) | مشاحنات مُعلنة‎ 
(1.) تف قا حوارات تليفونية خاصة‎ 
(Y) تليقونية‎ clair. | (4) وڪ‎ 
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ويمكننا ملاحظة أن تلك الذخيرة تحتوي ٠٠١‏ نص تم توزيعها 
بالتساوي على كل من المستوى التحريري والمستوى الشفهي من اللغة. 
og Fins‏ كل نص حوالي' nd 4٠١‏ ويل Sead‏ عد اللات 
ذافن 500 ll WIS‏ خر Aa gale‏ ويل Ul sine‏ جس Clik‏ 
المجتمع بمستوياته اللغوية المختلفة. وإذا نظرنا نظرة عامة إلى تاريخ تطور 
الذخائر اللغوية لوجدنا أن ذخيرة إس إي يو SEU‏ التي أنشأها كويرك Eá‏ 
عملا عظيمًا سواء من حيث وجهة النظر البحثية أو من Cus‏ منهجية التنفيذ. 
وقد اعتبرت هذه الذخيرة اللغوية بمثابة فاتحة طريق جيدة phi‏ علم الذخائر 
اللغوية وقَدّمَت أفكارً!ا Aude‏ جديدة في مجال البحث اللغوي. 


ثانيا: ذخيرة براون 

في ستينيات القرن العشرينء أنشأ كل من فرانسيز Francis‏ وكوشيرا 
Kucera‏ في جامعة براون الأميركية أول ذخيرة قياسية على مستوى العالم 
تقوم بجمع العينات اللغوية طبقا لقواعد منظوميةء وهي ذخيرة براون اللغوية. 
وقد كان الغرض الأساسي من إنشاء تلك الذخيرة هو دراسة الإنجليزية 
الأميركية المعاصرة. ويصل حجم تلك الذخيرة إلى مليون كلمة. 

وقد تم جمع المادة اللغوية لهذه الذخيرة من النصوص العامة التي كتبها 
الأميركان في عام VAT)‏ وتغطي المادة اللغوية خمسة عشر موضوعا من 
خلال خمسمائة عينة. وكل عينة لا يقل عدد كلماتها عن ٠٠١‏ كلمة. وقد 
اعتمدت دار النشر التابعة لجامعة براون على الدراسات الإحصائية التي 
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CG pl‏ على تلك الذخيرة في إصدار معجم عن معدل تكرار الكلمات في 
اللغة الإنجليزية'* وكان ذلك في عام .١157‏ وفي سبعينيات القرن 
«cy piel‏ صمم كل من جرين (Greene)‏ وروبين (Rubin)‏ برنامجًا أطلقا 
عليه اسم تاجيت paced (Taggit)‏ في عمل ترميز لأنواع الكلمات داخل تلك 
الذخيرة البالغ عدد كلماتها مليون كلمةء واستخدما في ذلك عدد ۸١‏ علامة 
ترميز لتصنيف الكلمات» ووصل عدد القواعد التي لجئا إليها لتنفيذ تلك 
العملية حوالي ali 72٠١‏ ووصلت نسبة الدقة في تميز أنواع الكلمات إلى 


. BIY yy 


١‏ توزيع المادة اللغوية داخل ذخيرة براون[30] 


تتوزع المادة اللغوية في ذخيرة براون على ١١‏ فة يرمز Ligh‏ 
بالحروف من 18 - cA‏ من بينها الفئات من 3 - A‏ تندرج تحت بند النصوص 
الإخباريةء أما الفئات من K-R‏ فتندرج تحت بند الأعمال الخيالية الإبداعية» 
أما الأرقام الموجودة في كل فئة فتشير إلى عدد العينات في كل منها. 

(A‏ الجرائد والمجلات: في مجال الأخبار. 
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(B‏ الجرائد والمجلات: في مجال الاجتماعيات 


























جرائه يومية ات SRE‏ = 
قضاد جد 4 ١‏ 
مراسلات القراء 


| 








(C‏ الجرائد والمجلات: في مجال النقد 
(موضوعات النقد هي: المسرحيات» والكتب» والموسيقى» والرقص). 
(D‏ الديانات 











كتب ۷ | 
دوريات 
منشو E‏ ات 和‏ 


I 
a 








(E‏ المهارات والهوايات 





y 1 كتب‎ 


-| 





59 یات | 34 








لحكايات الشائعة 


1(F 











| yy كتب‎ 
Ye دوريات‎ 





الأدب» والتراجمء والسير الذاتية 


(G 








YA كتب‎ ] 
Yy دوريات‎ 


















































(H‏ متفرقات 
| مسكذات. حكومية Yé‏ 
تقارير ماليا y‏ 
۲ 
يل الج ) 
| الهيئات الصناعية ١‏ 
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1 كتب تعليمية وعلمية 








— 











|[ العلوم الطبيعية ۲ 
الطب ° 

الرياضيات : 

الالجضاع و السلوكيات E‏ 
السياسة و اين Bg‏ هة vA‏ 


۸ 


alc 
FE 











| لأجناس 











(J‏ القصص العادية 


































































































s فصص‎ 
a yee 
القصص البوليسية‎ (K 
Ya gaai | 
z TP 
القصص الخيالية‎ (L 
۳ 5 -aa 
۳ قصص قصيرة‎ 
قصص المغامرات والرحلات‎ (M 
ree: 
\z قصص قصيرة‎ 
القتصص الرومانسية‎ (N 
v قصص قصيرة‎ 
الفكاهة‎ (O 
y ija E o] 
y سرد‎ | 
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وبعد تحديد أنواع النصوص وتفريعاتها الدقيقة وعدد العينات في كل 
tH‏ تم جمع تلك العينات وإدخالها إلى ذاكرة الحاسب. وفي البداية كان 
هناك التزام بالأعداد المقررة لكل فرع في اختيار النضوص؛ وبحيث Y‏ يقل 
كل نص عن ٠‏ كلمةء مع مراعاة أن تنتهي كل عينة بجملة كاملة. كما 
يتم وضع رقم كودي لكل نص عبارة عن رمز التصنيف الذي ينتمي إليه 
النص مضافا إليه عدد مكون من رقمين.. 
۲ الإصدارات المختلفة لذخيرة براون 

بعد إنشاء ذخيرة براون تتابعت أعمال تطويرهاء وتم ذلك من خلال 
ستة إصدارات» وكان كل إصدار من هذه الإصدارت» يستهدف مجموعة من 
الباحثين في أغراض مختلفة» وسوف نتحدث عن تلك الإصدارات تفصيلاً 

1 

“A” الإصدار‎ (i 

كان هذا الإصدار هو الشكل الأول من الذخيرة اللغوية براون. وقد تم 
بناؤه في عام VATE‏ إلا أن ذلك الإصدار قد تأثر بإمكانات الحاسب AST‏ 
بالإضافة إلى استخدام تقنيات معقدة لعمليات التكويد. 

ب) الإصدار B”‏ 

وهو الإصدار الذي ظهر بعد el al‏ معالجة wale‏ الإصدار “A”‏ 
وتمحورت تلك المعالجة حول حذف علامات الترقيم والكلمات الممشبّكة 
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النسخة المُجَرّدة Cus (Stripped)‏ إن هذه المعالجة مفيدة في عمل 
الدراسات الخاصة بالكلمات المفردةء هذا بالإضافة إلى أن هذه النسخة قد 
ates‏ السبيل أمام كل من فرانسيز وكوسيرا لعمل الإحصائية الخاصة بمعدل 
تكرار الكلمات في الإنجليزية الأميركية. 

ج) الإصدار "C‏ 

وهو الإصدار الذي يحتوي ترميز الأنواع النحوية للكلمات؛ وتم تنفيذ 
هذا الإصدار ely‏ على الإصدار"8. وقد تم توحيد الإشارات المعبرة عن 
نوع الكلمات؛ واستخدم في ذلك عدد AY‏ علامة للترميز النحوي. 

د) الإصدار برجن الأول: 

هذا الإصدار والإصدار التالي له-قام بهما مركز الحاسب الآلي بجامعة 
برجن تحت إشراف العالم جوستين (Jostein)‏ وقد احتفظ هذا الإاصدار 
بالحروف الكبيرة والحروف الصغيرة في الإنجليزية وترميز علامات الترقيم» 
مع الاستعانة بأقل قدر من الأكوادء بالإضافة إلى الاحتفاظ بالمعلومات 
التحريرية للنصوص. 

ه) الإصدار برجن الثاني: 

الاختلاف الوحيد بين هذا الإصدار والإصدار السابق له هو تقليل قدر 
المعلومات التحريرية الخاصة بالنتصوص؛ بالإضافة إلى وجود نظام متكامل 
OSS‏ من فهرسة الكلمات التي تحتويها الذخيرة. 
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3( الإصدار براون مارك: 

| t 
أنهي هذا الإصدار من خلال جامعة ستانفورد» وكان الغرض منه‎ 
تمكين ذخيرة براون من التوافق مع برمجيتين شائعتين للاستعلام» وإحدى‎ 
هاتين البرمجيتين تتيح إمكانية الاستعلام داخل الذخيرة عن كلمات محددة أو‎ 
جيل كائلة طعا سياف ن أما الأخرى فتتيح إمكانية الاستعلام عن‎ 

النصوص التي تندرج تحت سياق معين طبقا لبعض الكلمات المفتاحية. 
وإذا نظرنا إلى ذخيرة براون مقارنة بباقي الذخائر اللغوية لوجدنا أنها 
اتبعت تصميما في غاية الدقة من Cus‏ العينات وأسلوب جمع المادة اللغوية. 


ثالنًا: ذخيرة لوب 

Gale‏ اقتراح إنشاء هذه الذخيرة اللغوية هو العالم جيفري ليتش 
(Geoffrey Leech)‏ من جامعة لانكاسترء وكان ذلك في سبعينيات القرن 
العشرين؛ ولكنها في النهاية CAS‏ بإشراف العالم ستيج جوهانبسون (Stig‏ 
Johansson)‏ من جامعة أو سلو بالنرويج» وفي النهاية تم تحميلها باسم ذخيرة 
لوب LOB‏ في مركز الحاسب والعلوم الإنسانية التابع لجامعة برجن „BU‏ 

وهذه الذخيرة بمثابة توأم لذخيرة براون» وكان الغرض من إنشائها 
دراسة اللغة الإنجليزية. وقد جاء تقسيم المواد داخل ذخيرة لوب مطابقا تمامًا 
لتقسيمها في ذخيرة براون حتى يتسنى عمل الدراسات المقارنة بين النموذج 
الأميركي والبريطاني في اللغة الإنجليزيةا*' ويوضح الجدول التالي توزيع 
المواد اللغوية داخل هاتين الذخيرتين. 
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جدول )1-1( الهيكل الداخلي لذخيرتي براون ولوب 






































































شكل المادة اللغوية 
الجرائد والمجلات: في مجال 
| التقارير الإخبارية | 
الجرائد والمجلات: في مجا 
B‏ لجرائد والمجلات: في مجال ف ey‏ 
الاجتماعيات | 
€ | الجرائد والمجلات: فى fon‏ اللقد VV‏ ۱۷ 
D |‏ الديانات yw w‏ | 
E‏ المهار Cl‏ و CAD gall‏ كم | A‏ 
F |‏ | حكايات شائعة E‏ | 
| € الأدب | vw | vo‏ 
H _|‏ متفرقات Ya al Yo‏ = 
J‏ الت لتعليم | As 0 As‏ 
L‏ | اس yé Yé | en‏ 
i 3 E‏ 
N |‏ | مخ الك | wa‏ ۹ | 
3 ماقببية | wa‏ ۹ | 
o| P |‏ قصص رومانسي ات |_ ا 
R‏ فكاهة q T‏ 
الأجمالى | tvs ea‏ | 








مكوانة مرك ۳ علامة. واستخدموا أسلوبًا خاصًا لترميز أنواع الكلمات 
ge iiia‏ ذلك المستخدم في ذخيرة براون لتمييز الأنواع النحوية للكلمات 
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داخل ذخيرة ‘LOB‏ حيث طوروا برمجية لترميز أنواع الكلمات أطلقوا عليها 
اسم تاجيت (Taggit)‏ وقد اعتمد هذا النظام على الكلمات التي تم ترميزها 
من حيث النوع النحوي للكلمة في ذخيرة براونء وعن طريق قوانين 
الإخصاء تمكنت البرمجية من وضع مصفوفة i‏ عن احتمالات التغير في 
Se ee ee‏ ا النص» وعن 


لكلمات داخل ذخيرة لوب yore LOB‏ أكثر ا ذكاء. وقد تمكن فريق العمل 
من خلال تلك البرمجية من الارتقاء بنسبة الدقة في تحديد أنواع الكلمسات 
داخل الذخيرة البالغ عدد كلماتها مليون كلمة إلى نسبة 9097-57. Ey‏ 
هذه الطريقة في التعامل مع الذخائر اللغوية إنجازً! عظيمًا تم التوصل إليه في 
حقل معالجة اللغات الطبيعية. ش 

كما اتضح للعلماء العاملين في مجال allea‏ المعلومات اللغوية من 
خلال تلك الحقيقة العلمية مدى محدودية وسائل الذكاء الاصطناعيء التي 
تعتمد ats‏ الحقائق المجردة مقارنة بتلك القوة الهائلة والأفق البغيد الذي 
تطرحه الأنظمة التي تعتمد على الإحصاء والاستقراء في التوصل إلى سبر 
أغوار الحقائق اللغوية داخل النص. ولعلنا لا نبالغ عندما نقول: إن برنامج 
(Taggit)‏ قد فتح مجالا Gily‏ واسعًا في حقل معالجة اللغات الطبيعيةء الأمر 
الذي أعطى إشارة الانطلاق لتطوير منهجيات التعامل مع الذخائر اللغوية 
خلال تسعينيات القرن العشرين. واعتمادًا على الأساس الذي قدمته ذخيرة 
لوب LOB‏ في ترميز أنواع الكلمات نحويّاء أعلن كسل من جوهانسون 
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(Hofland) d 5 5 (Johansson)‏ النتيجة الإحصائية Shed‏ تكرار الكلمات 
وأنواعها النحوية في اللغة الإنجليزية عام PV AAG‏ كما قام فريق من 
الباحثين بجامعتي لانكاستر وليدز بعمل ترميز للقواعد النحوية داخل ذخيرة 
لوب؛ تمهيذا لاستخدام ذلك الترميز في عمل تحليل نحوي آلي قائم على 

نماذج علم الاحتمالات. 


رابعا: ذخيرة إل إل سي LLC‏ الشفهية 

كان إنشاء الذخائر اللغوية الثلاث السابقة بمثابة وضع نهاية لعسصر 
إهدار طاقة الإنسان ووقته في جمع المادة اللغوية» وإرساء لمكانة علم 
الذخائر اللغوية ليحتل موقعه المناسب في الدراسات اللغوية. إن ظهور 
الذخائر اللغوية الثلاث قد مكن العلماء من تطوير أسلوب جمع المواد اللغوية 
من مستوى الكلمة والعبارة والجملة البسيطة كما كان يحدث في المراحل 
الأولى من تاريخ جمع ol gall‏ اللغوية بالطرق اليدوية لينتقل مباشرة إلى 
مستوى جمع النصوص اللغوية الكاملةء كما ساهم a‏ في تطوير نطاق 
المادة التي يتم جمعها من إطار مُحَدَّد إلى أطر وأفرع اللغة المختلفة. إلا أن 
تلك الذخائر الثلاث كانت تركز على المستوى التحريري من اللغة وخاصة 
الذخيرتين الأخيرتين» ولم يكن هناك مجال لجمع مواد لغوية شفهية. ولذلك 
بدأ العمل في إنشاء ذخيرة للنصوص الشفهية عام NAVo‏ 

في ستينيات القرن العشرين؛ أجرى العالم الشهير كويرك من جامعة 
لندن دراسة عن أساليب استخدام اللغة الإنجليزية سجل خلالها مواد شفهية 


وصل حجمها إلى ما يزيد عن ألفي ساعة من حوارات ومواد إذاعية وغير 
ذلك؛ وبعد ذلك حول تلك المادة اللغوية الشفهية إلى صورة ورقية. وفيما بعد 
تولى العالم سقارتشك (Svartvik)‏ من جافعة لوند السويسرية å aga‏ 
تحويل تلك المادة إلى نسخة رقمية يتم التعامل معها من خلال الحاسب الآلي. 
وفي الوقت ذاته أطلق العلماء مشروع ملخص اللغة الإنجليزية الشفهية The‏ 
Survey of Spoken English‏ الذي أطلق عليه اختصارًا اسم إس إس os!‏ 
555 والذي Jah)‏ في حقيقة الأمر توأم مشروع إس os!‏ يو SEU‏ الذي 
أشرنا إليه سابقًا. وكان الغرض من هذا المشروع استغلال قدرات الحاسب 
العالية في معالجة البيانات آليّا للتوصل إلى المعلومات الأولية عن اللغة 
الشفهية الإنجليزية من متن تلك الذخيرة. وقد شملت عملية ترميز الذخيرة 
إجراء تحليل للإيقاع ووحدات التنغيم» وأصوات التوكيد والأساليب المختلفة 
للغة الشفهيةء الأمر الذي hed‏ مادة أولية ذات قيمة عالية لدراسة اللغة 
الإنجليزية الشفهية. وقد اكتمل العمل في مشروع ذخيرة إس إس SSE os)‏ 
عام .١38١‏ وقد GIL!‏ على هذه الذخيرة الشفهية اسم إل إل سي LLC‏ وهو 
اختصار ل London-Lund Corpus of Spoken English‏ بمعنى ذخيرة 
Gail‏ - لوند للغة الإنجليزية الشفهية. 

وقد بدأت ذخيرة LLC‏ بعدد من النصوص يصل إلى Éa AY‏ 
ويحتوي كل نص حوالي ٠٠٠٠‏ رمز. ولتسهيل عملية dadi‏ داخل تلك 
الذخيرة قام المصممون بعمل تصنيف دقيق وفهرسة جيدة لمحتوياتهاء وقد 
َسنت النصوص إلى خمسة تصنيفات رئيسة؛ هي: 
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-١‏ حوارات وجها لوجه. 

؟- حوارات تليفونية. 

۳ مناقشات» وتحقيقات صحفية» ومجادلات. 

- مناقشات جماهيرية حية» ومناظرات» ومحاضرات دون Nae)‏ سابق. 

8ك Sins Zz yale CI polos‏ سابقا. 

وبعد ذلك» تم عمل تصنيفات أكثر دقة في إطار تلك التصنيفات العامةء 
ثم أعطي لكل صنف من هذه النصوص رقم مضاقا إليه الحرف S‏ 
وبالإضافة إلى ما قام به سؤارتقيك (Svarviik)‏ من عمل ترميز للهجات 
والإيقاع داخل مقاطع الكلام في الذخيرة؛ فقد وضع تصميما دقيقا لحزمة من 
برمجيات الفهرسة Gf‏ عليها اسم "الكلمات المفتاحية داخل السياق Key‏ 
(alls, "Word in Context‏ عليها اختصارًا KWIC‏ وهذه الحزمة البرمجية 
ESY‏ عمليات فهرسة النصوص فحسب» بل يمكن الاستعانة بها في البحث 
عن مقاطع ذات خصائص لغوية معينة Jala‏ النصوصء لدرجة أنه أصبح 
هن الممكن Capel‏ على دد مرات Lge gy CHS yy gb‏ اللوي 
وعلاقتها الاقترانية مع غيرها من الكلمات داخل أي نص. وهذا المستوى من 
الفهرسة لا يتطلب عمل تكويد لكل فقرة من النص فقطء وإنما يصل الأمر 
إل ls‏ حؤمة من الزموة كفي a Styli‏ ي تمل خافن 
النص. وفي أثناء عملية ترميز الأنواع النحوية للكلمات تكون البداية بكتابة 
حرف إنجليزي كبير يشير إلى النوع النحوي للكلمةء وبعد ذلك يضاف إلى 
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هذا الحرف علامة أخرى للتعبير عن أشكال التغير المختلفة التي تحدث 
للكلمة. على سبيل المثال»ء يضاف إلى الحرف N‏ العدد ۲ في صورة (N+2)‏ 
للتعبير عن صيغة المثنى من الاسم» Gy‏ مثلاً الصيغة (Nez)‏ للتعبير 
عن الحالات الإعرابية المختلفة التي تلحق بالاسم وغير ذلك. وبالإضافة إلى 
cull‏ ومن أجل عمل دراسات أكثر دقة على قواعد اللغة الشفهيةء قاموا 
بتصميم مجموعة من العلامات النحوية للتعرف على وحدات التحليل النحوي. 
فضلاً عن قيامهم بتصميم برنامج لتحليل التعبيرات اللغوية. وقد وصل حجم 
ذخيرة إل إل سي LLC‏ اللغوية في النهاية إلى نصف مليون كلمة. 
خامسا: ذخيرة كوبويلد Cobuild‏ 

الاسم الكامل لذخيرة كوبويلد (Cobuild)‏ هو ) Collins Bermignhan‏ 
«(University International Language Database‏ وهي ذخيرة للغة 
الإنجليزية تم تأسيسها بالتعاون بين دار نشر جامعة كولينز الإنجليزية 
وجامعة برمنجهان. ويتمثل الغرض من ely‏ هذه الذخيرة اللغوية في إجراء ٠‏ 
دراسات معجمية على أساس المواد اللغوية المخزنة بداخلها. وقد تم إنشاء 
ذخيرة كوبويلد بدعم وتشجيع من العالم جون سنكلير (John Sinclair)‏ في 
ثمانينيات القرن العشرين: وعلى أساس ذلك ابتكر حزمة من الأدوات 
البرمجية وقام بتطويرها لإدارة المادة اللغوية المخزنة بها وتحليلهاء واستطاع 
أن OS‏ فريقًا من الخبراء المتخصصين في علم المعاجم وعلم الذخائر 
اللغويةاة*!. وقد كانت المبادئ التي وُضعت لاختيار المواد اللغوية لذخيرة 
كوبويلد في الثمانينيات كما يلي: 
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YX O والشفهية نسبة‎ VO اللغة التحريرية تمثل نسبة‎ -١ 

-١‏ يُشترط في al gall‏ اللغوية التي يتم جمعها أن تكون من اللغة 
الإنجليزية القياسية» ولا يتم الجمع من اللغة الشفهية غير القياسية. 
وتمثل المادة المجموعة من الإنجليزية البريطانية نسبة %۷٠‏ أما 
الإنجليزية الأميركية فتمتل MYO‏ أما باقي مناطق اللغة الإنجليزية 
فقد تم تمثيلها بنسبة WO‏ من المادة اللغوية. 


~٣‏ تعكس المادة اللغوية استخدامات اللغة الإنجليزية المعاصرة مع 


السعي قدر الإمكان لأن تكون المادة اللغوية حديثة. 
-٤‏ لا يتم جمع الشعر أو المسرح أو النصوص التقنية. 
-٥‏ تتمثل مصادر المادة اللغوية في البالغين من الأعمار فوق سن ٠١‏ سنة» 
ولا تقل نسبة الأعمال النسائية عن %۲١‏ من إجمالي الذخيرة اللغوية. 
一‏ المادة المجموعة لا تكون في صورة عينات أو مقتطفات» وإنما 
في صورة كاملة أو el jal‏ كبيرة من نصوصء في حدود سبعين 
ألف كلمةء ليتناسب ذلك مع الدراسات القائمة على مستوى 
النصوص ALISI‏ 
وصل حجم المادة الأولية التي تم جمعها في البداية إلى عشرين مليون 
UALS‏ ويرجع الفضل إلى هذه الذخيرة اللغوية الكبيرة في إصدار (معجم 
كوبويلد للغة الإنجليزية)!©*! COBUILD English Language Dictionary‏ 
الذي أصدرته دار نشر كولينز عام ۱۹۸۷ الأمر الذي iel‏ أول حدث من 
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نوعه في مجال تأليف المعاجم على مستوى العالم. ويتمثل الاختلاف بين 
معجم كوبويلد وغيره من المعاجم في أنه يحتوي أمثلة لغوية دقيقة وواضحة 
عن الكلمات وشرحها وأساليب استخدامهاء وأن جميع الأمثلة المذكورة 
مصدرها لغة Adda‏ ولم تتم صياغتها بمعرفة مؤلفي المعجم. iy‏ تجربة 
مؤلفي هذا المعجم مثالا نموذجيًا لإمكانية الاعتماد على الذخائر اللغوية 
ومنهجية تحليل المواد اللغوية فيها لإجراء دراسات لغوية واسعة النطاق. 
RG‏ ذخيرة كوبويلد اللغوية بصورة أساسية في الدراسات المتعلقة 
بالمفردات» والمعاني» والقواعدء بالإضافة إلى طرق الاستخدام اللغوي في 
اللغة الإنجليزية. كما يتم إمدادها بالمواد اللغوية الحديثة بصورة متتالية الأمر 
الذي جعل من ذخيرة كوبويلد اللغوية ذخيرة ديناميكية تتغير بصورة متوالية. 
وقد اكتشف العلماء من خلال دراساتهم لذخيرة كوبويلد على مدى 
عشر سنوات أن إطار المفردات في اللغة الإنجليزية متسع للغايةء بالإضافة 
إلى أن تلك المفردات يتم استخدامها بطرق متعددة. وذلك caf‏ أن الدراسات 
اللغوية يلزمها من العينات ما يتناسب مع هذا الحجم من الاستخدام المتتوع 
للغة ومفردتها. ويطلق على هذه الذخيرة في الوقت الحالي اسم "بنك اللغة 
الإنجليزية" Cus (The Bank of English)‏ وصل pas‏ المادة اللغوية التي 
تضمها "٠١‏ مليون كلمةء وقد Cal‏ عملية ترميز لأنواع الكلمات داخل 
هذه الذخيرة اللغويةء بالإضافة إلى عمل تحليل نحوي جزئي للمادة اللغوية 
بها يصل إلى ٠٠١‏ مليون كلمة. والمادة اللغوية المتضمّنة في تلك الذخيرة 
كلها مواد حديثة؛ حيث إن معظم النصوص الموجودة بها من النصوص التي 
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ظهرت بعد عام ١۱۹۹ء‏ وتشمل ah gall‏ التحريرية بها نصوصا قصصيةء 
وغير قصصية» بالإضافة إلى الجرائد والمجلات والنشرات والمراسلات 
والتقارير وغير ذلك. أما المواد الصوئية فتشمل حوارات يومية:؛ وإذاعة؛ 
ومؤتمرات ومقابلات» ومناقشات... إلخ. ويرى سنكلير أن هذه الذخيرة 
اللغوية pi‏ أمثلة حقيقية وموضؤعية cr‏ الإنجليزية في مجالات الحياة 
اليومية لغالبية الناس وذلك في مستويات الاستماع والحديث والقراءة 
والكتابة. 
كما يقدم كوبويلد برمجية تتيح لمؤلفي المعاجم وعلماء اللغة إجراء 
تحليل معقد على المادة اللغوية داخل الذخيرة؛ حيث يمكن لهذه البرمجية أن 
تقوم بالمهارات التالية: | 
-١‏ عمل مسح لأنماط التراكيب التي تأتي مع كلمة محددة 
واستخراجها. 
-Y‏ الكشف عن معدل تكرار الكلمات. 
۳- استخراج أمثلة واقعية عن الاستخدام اللغوي لكلمة من الكلمات» بل 
el jal‏ تحليل لتلك الأمثلة» ونسخ النتائج على وسائط التخزين الصلبة. 
في عصر تكنولوجيا المعلومات» أصبحت هناك حاجة Eb‏ تتزايد 
人‏ 
معالجة الشكل الكتابي للغةء أو الاستكشاف والإبحار داخل المعلومات 
اللغويةء أو الترجمة الآلية وغير ذلك. وتعتبّر خدمات المعلومات الرقمية من 
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الأجزاء التي تلعب دور! محوريًا في هذا المجال. ويمكن لذخيرة كوبويلد أن 
تقدم معلومات غزيرة Lad‏ يتعلق بالمفردات cael ally‏ الأمر الذي يضمن 
تطوير التكنولوجيا الخاصة بمعالجة اللغفة في المجالات سالفة الذكر 
l T‏ 
سادسسا: ذخيرة لونجمان اللغوية Longman‏ 


ظهرت هذه الذخيرة نتيجة العمل الذي قامت به لجنة ذخيرة لونجمان 
Longman Corpus Committee‏ في الفترة من يناير ۱۹۸۸ إلى نوفمبر 
۰ وقد أشارت سومرز (Summers)‏ في الوثائق الخاصة بإنشاء الذخيرة 
إلى الخصائص التي اتبعت لتصميم ذخيرة لونجمان وهي كالتالي: 


— الهدف من إنشاء ذخيرة لونجمان هو بناء ذخيرة لغوية متعسددة 
الأغراض بمعايير موضوعية 

كان الهدف من ذخيرة لونجمان هو إنشاء ذخيرة لغوية جديدة تماما 
للغة الإنجليزيةء وذلك عن طريق جمع كميات كبيرة من النصوص طبقا 
لمقاييس ومعايير مناسبة وواضحة؛ وذلك بغرض وضع تلك الذخيرة لخدمة 
صناعة المعاجم وخدمة المحافل العلمية. في البدايات الأولى للذخائر اللغوية 
تكونت ذخيرتا براون وإس إي يو Ús (SEU)‏ لإطار معين تم وضعه سابقا 
لتحديد حجم المادة اللغوية. وكان الأسلوب المع دائمًا هو أن المادة اللغوية 
يتم جمعها بصورة مباشرة Lad)‏ عدا النزر القليل) ولم يعتمد مصممو هاتين 
الذخيرتين على أسلوب المواد القياسية التي يتم تحديدها سابقا في جمع المادة 
cA gl‏ الأمر الذي تسبب في وجود أمثلة لغوية مُشوّهة. Ld‏ ذخيرة لونجمان 
فقد اتبَعّت منهجية مختلفة عن الذخائر السابقة في ely‏ الهيكل الأساسي لها. 
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ig tlie ۲‏ تصميم ذخيرة لونجمان 

(i‏ الاعتماد على جمع النصوص التي تنتمي إلى أهل اللغة الإنجليزية 
الأصليين 

حيث اعتمد مصممو ذخيرة لونجمان بصورة كبيرة على تراكم المعرفة 
اللغوية لأهل اللغة الإنجليزية على مدى أزمان طويلة» وأعطوا أولوية كبيرة 
Gaal‏ اللغوي لأهل اللغة الإنجليزية. واعتمادًا على ذلك المبدأ تمكن مؤلفو 
المعاجم من تحليل المعلومات اللغوية الخام داخل الذخيرة اللغوية وتفسيرهاء 
بالإضافة إلى أنهم تمكنوا من تمييز ما يمكن القياس عليه وما هو نادر 
الظهور داخل اللغة. ولكن في الوقت ذاته قدمت تلك الذخيرة لمؤلفي المعاجم 
كمية كبيرة من المعلومات تفوق إحساسهم الموضوعي تجاه اللغة بشكل كبير» 
واستطاعت الذخيرة في أغلب الأحيان أن تتغلب على سوء الفهم الذي كان 
يبدو على الناس في السابق تجاه بعض الكلمات وأنماط القواعد النحوية» 
بالإضافة إلى أنها ألقت الضوء على العديد من الخصائص اللغوية الجديدة 
للكلمات. وهذا ما لم يكن لمؤلفي المعاجم تصوره في الماضيء فالأهم عند 
بناء الذخيرة اللغوية هو احترام شعور أهل اللغة الأصليين تجاه Aall‏ 
بالإضافة إلى سلطة الذخيرة اللغوية في إقرار ما يتعلق بذلك الشعور من 
خصائص اللغة. 

ب) إتاحة الذخيرة اللغوية لخدمة البحث العلمي 

كان الهدف هو إنشاء ذخيرة لغوية متوازنة تَعَبّر عن اللغة الإنجليزية 
خلال القرن العشرين» وبحيث تغطي تلك الذخيرة كلا من النموذج الأميركي 
والبريطاني من اللغة الإنجليزية. كما تشمل التحولات الرئيسة على ساحة 
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القوميات الأخرى الناطقة باللغة الإنجليزيةء ويكون ذلك مُشتملا على 
الإطارين التحريري والشفهي من اللغة. 

الاستخدام الأساسي للذخيرة هو: إتاحة بيانات لغوية موضوعية Se‏ 
الاعتماد عليها في تقديم تصور إجمالي للغة يمكن الاعتماد عليهء بالإضافة 
إلى وضع الأساس لتأليف المعاجم وكتب النحو وجميع المؤلفات الأخرى في 


علوم اللغة. 
الاستخدام الفرعي للذخيرة هو: تقديم ذخيرة متوازنة paal‏ عن اللغة 
الإنجليزية في القرن العشرين. 


ج) البدء بتطوير الجزء المتعلق بالمستوى التحريري. 
-Y‏ منهجية اختيار المادة اللغوية | 

المادة اللغوية موضع الاختيار ينبغي أن تعبر عن اللغة الإنجليزية في 
القرن العشرين ابتداءً من عام ١٠۱۹ء‏ مع EH‏ بصورة أكبر على المواد 
اللغوية المعاصرة. ig‏ النصوص من. حيث.النوع إلى نصوص معلوماتية 
(Informative)‏ ونصوص إبداعية (Imaginative)‏ ويشغل كل من هذين 
النوعين نسبة %٦٠‏ و %٤١‏ على التوالي» إلا أن القائمين على بناء ذخيرة 
لونجمان يعتقدون أن النصوص القصصية أكثر تأثيرًا من النصوص غير 
الأدبيةء بل لها ase‏ أكبر من col all‏ ويمكن GLY‏ ذلك ببساطة عن طريق 
الاطلاع على المعلومات الإحصائية عن حالات الاستعارة والقراءة داخل 
المكتبات. 


(Í‏ موضوعات النصوص: النصوص الحوارية أكثر من النصوص 
الإبداعية 

تتوزع المادة اللغوية داخل ذخيرة لونجمان على عشرة مجالات. من 
بين هذه المجالات نصوص قصصية تصل إلى %4١‏ من حجم الذخيرة 
وتشمل هذه النسبة الشعر والمسرح والكوميديا. Siig‏ النصوص التحريرية 
هي المحرك الأساسي لاختيار الموضوعات وليس الشكل الأدبي. ونسبة ما 
تمثله الموضوعات العشر من حجم الذخيرة كما يلي: 


% 和 
EER 
%\ +18 

E 
KA 

EV 
% ov 
% 
% YY الشعر والمسرح والكوميديا‎ (1+ 


ب) الخصائص الرئيسة للمستندات 











Pd Ps ع‎ 
t 
نه‎ SS 


`“ mn 
٠. 






من أجل تقسيم النصوص الموجودة داخل الذخيرة اللغوية حسب 
الأنواع المختلفة للمستندات تم اتباع أربعة تقسيمات خارجية فرعية تشير إلى 
الخصائص الرئيسة للنص؛ مثل: المنطقة التي ينتمي إليها النص» وزمن 
صدوره» ووسيط نشر النص» ورتبته. وجميع هذه الخصائص فيما عدا رتبة . 
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النص بمثابة عنصر قياس موضوعي للنص» وكل نص من النصوص 
التحريرية ينبغي أن يتضمن إشارة إلى تلك الخصائص. 

المنطقة التي ينتمي إليها النص: تعرضت مواد الذخيرة لإنجلترا 
بصورة أساسية. على أساس النسبة التالية: إنجلترا ho‏ وأميركا ‘i,‏ 
والدول GAY‏ \%. 

زمن صدور النص: لم تلجأ ذخيرة لونجمان إلى فكرة وجود فترة 
زمنية محددة لاختيار المادة اللغوية:؛ وإنما احترمت منهجية الذخيرة 
التاريخية؛ dya‏ غطت المواد الإنجليزية منذ عام ١٠1١؛‏ ولذلك نجدها 
ملائمة بصورة أكثر لتغطية أهداف الذخائر اللغوية ذات الاس تخدام العام. 
وتتضح نسبة توزيع النصوص زمنيًا من خلال الجدول التالي: 


جدول :(Y-Y)‏ الفترات الزمنية للنصوص في ذخيرة 










لونجمان 
التاريخ النصوص الإبداعية | النصوص المعلوماتية 








9000 VA ١44-1966 


1959-62 
وسيط النشر: مصادر جمع ال"نصوص التحريرية تشمل الكتبء» 
والجر call‏ ومنفرقات: وهذه المتفرقاك cloth‏ النفشرات غير المطبوعة 
والإعلانات والتقارير التجارية والإخطارات الحكومية والمنشورات وغير 
ذلك. ومن بين النصوص التحريرية كان المصدر الأساسي للجزء الخاص 
بالقسوص الإبداغية هو اكب Ll‏ اتوص المطوماكة فك Jah‏ الكشب 
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والجرائد والمتفرقات. Lal‏ نسب الوسائط المختلفة فقهي 9980 للكتب» 
و WIV‏ للجرائدء و۷,٦%‏ للمتفرقات. 

رتبة النص: وهذه أصعب خاصية يمكن تحقيقها لضمان توافق الأنواع 
داخل الذخيرة؛ حيث تحتل النصوص الإبداعية بما تشمله من قصص أدبية 
الرتبة الأعلى بين النصوصء يليها النصوص الخاصة بالمعلومات 
والنصوص التكنولوجية. وبالإضافة إلى ذلك فقد صمّمت ذخيرة لونجمان 
لتشمل بعض الخصائص الثانوية للنصوص. | 

انطلاقا من المقاييس والقواعد السابقة» فقد انتقت ذخيرة لونجمان 
نصوصها من أصل ٠٠٠١‏ نوع من المصادر اللغويةء من بينها أكشر مسن 
نص تم اجتزاؤه من كتب» وقد وصل حجم المادة اللغوية في الذخيرة بأكملها 
إلى YA‏ مليون كلمة متاحة للباحثين من أجل الاستخدام في البحث اللغوي. 
سابعا: الذخيرة القومية البريطانية BNC‏ 

مما لا شك فيه أن الذخيرة القومية البريطانية التي أنشئّت في الفقترة 
من عام ۱۹۹۱ حتى عام 19490 تتسم من حيث تصميمها وأسلوب جمعها 
أنها أكبر الذخائر حجمًا على مستوى العالم. وقد شاركت الحكومة البريطانية 
ب WO‏ من قيمة تمويل إنشاء هذه الذخيرة» وقد تم تطوير هذه الذخيرة 
بالتعاون بين كل من دار نشر جامعة أكسفورد ومجموعة لونجمان ودار نشر 
تشامبرز والمكتبة القومية البريطانية وجامعة أكسفورد وجامعة لانكاستر. وقد 
قدم كل من هذه الهيئات جميع ما لديها من خبرات وإمكانات إدارة ونشر 
النصوص الإلكترونية وتأليف المعاجم ومجالات تحليل الذخائر اللغوية حتى 
Se)‏ العمل في إطار مشترك من أجل تصميم تلك الذخيرة اللغوية وتطويرها 
وترميزها. ونظر! إلى أن ذخيرة بي إن سي BNC‏ تشتمل على نصوص 
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تحريرية وأخرى شفهية بالإضافة إلى كبر حجم مادتها اللغويةء الأمر الذي. 
ولد LAN‏ أن تصبح المصدر القومي الأساسي للاطلاع على المصادر 
الإنجليزية مثلها في ذلك مثل ذخائر إس إي سي SEC‏ وبراون؛ ولوب 
LOB‏ وما قدمته من إسهام في حقل الدراسات اللغؤية المبنية على ذخائر 
لغوية في أثناء عصر الجيل الأول من الذخائر. وقد كان الفكر التصميمي 
لذخيرة بي إن سي BNC‏ يتمتع بقدر عال من التوازن؛ حيث جمعت الذخيرة 
قطاعًا عريضنا من النصوص التحريرية والشفهيةء الأمر الذي جعلها المصدر 
الأساسي الأكثر انتشارًا واستخداما في التطبيقات اللغوية التجارية والعلمية 
والتعليمية. تشمل ذخيرة بي إن BNC‏ عدد 4174 نصء تمشل اللغفة 
التحريرية منها نسبة (WA,‏ أما اللغة الشفهية فتمثل WY‏ وعلى الرغم من 
أن الجزء الشفهي الذي يصل إلى حوالي ٠١‏ مليون كلمةء FE‏ في الوققت 
ذاته أكبر نص شفهي يمثل اللغة الإنجليزية حتى الآنء فإن ليتش (Leech)‏ قد 
لاحظ عام ١157‏ أن ذخيرة بي إن سي BNC‏ لم تستطع أن تحقق التوازن 
بين حجم المحتوى التحريري والمحتوى الشفهي في المادة اللغوية A Padl‏ 
بداخلها. ويقدم المصدر رقم وهو موقع الذخيرة على شبكة المعلومات 
تعريفا عن توزيع المادة اللغوية داخل ذخيرة بي إن سي BNC‏ 
١‏ ذخيرة BNC‏ للنصوص التحريرية 

تضم ذخيرة بي إن سي BNC‏ النصوص التحريرية عدد ٠۲٠۹‏ 
نصوصء وكل نص من هذه النصوص يتمتع بالخصائص اللغوية للفئة 
اللغوية التي يندرج تحتها. وعند اختيار المادة اللغوية يتم التحقق من وجود 
ثلاث خصائص هي تاريخ الإصدار ووسيط النشر والمجال الرئيس الذي 
تندرج تحته تلك المادة. 


أ) تاريخ الإصدار 


جدول :)٤- Y)‏ تواريخ إصدار النصوص في لخيرة بي إن جحي 9102 
نسبة التمثيل فى 
الذخيرة 



















التاريخ 


۱۹۷1-۰ 
۱۹4۳-6 


من دون تاريخ 

ب) وسيط النشر 
لا يتعدى حجم أي نص في ذخيرة بي إن سي BNC‏ مهما بلغ حجمه 
عدد ٠١‏ ألف كلمة» والجدول التالي يبين لنا نسبة المصادر التحريرية 













DA. AA 
%17,4 











جدول :ot‏ نسب توزيع الوسائط المختلفة من 
الصدت على TE‏ إن سي _ 




































— الوسيط ‏ عدد العينات | 0 داخل 
ETT Û VAR mene <I‏ — 
| الجرائد cea VV‏ |[ 
| أوراق متفرقة (إعلانا ت ونشرا ~( oé YA)‏ % 
yar Yeo ee‏ % 
za)‏ سلات ومدكرات 
| لغة شفهية مكتوبة في شكل تحريري | 45 C % ,or‏ 
ج) المجال 


هناك نسبة ٠‏ من النصوص داخل ذخيرة بي إن سي BNC‏ تندرج 
تحت بند النصوص الإبداعية» ونشرت جميعًا بعد عام 4 وهناك Apa‏ 
MA»‏ من النصوص تندرج تحت فئة النصوص المعلوماتية نشرت جميعها 
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التي تم جمعها من المجلات الأسبوعية؛ وذلك بسبب أن مصممي الذخيرة قد 
راعوا التأثير الثقافي المستمر للأعمال الأدبية في المجتمع؛ والجدول التالي 





جدول (۲-): نسب توزيع المجالات داخل ذخيرة بي إن سي 




















































laa‏ عدد النصوص | نسبة التمثيل داخل الذخيرة 
الفصيوصن Away iada‏ | 
| العلوم الطبيعية O #6 4A a‏ 
العلوم القطريقية AIET‏ 
العارى daca‏ | %10,۹ 
| الشئون الدولية | SEE fo‏ | 
| التجارة والمال Û‏ 4 1 100 
القنون | Yoq‏ ۸,۷ % 
| العقيدة والفكر tot TE‏ % 
| الترفيه e‏ | 0000 5 
من دون تصنيف | o‏ %1,0 











؟ - ذخيرة بي إن سي BNC‏ للنصوص الشفهية 


تضم ذخيرة بي إن BNC‏ مواد شفهية تصل إلى ٠١‏ ملايين كلمةء 


s 5 pr Fa 7‏ 
وقد OAs)‏ هذه المادة من مصدرين أساسين: مواد إدارية (cotext-Are—_)‏ 


governed material)‏ وعينات إحصائية. Jay‏ حجم المواد الإدارية 
الرسمية إلى 1١554754‏ كلمة. Led‏ العينات الإحصائية فيصل حجمها إلى 
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.TAfoVoY 


|( النصوص الشفهية المأخوذة من المواد الإدارية الرسمية 
من أجل الوصول إلى تغطية شاملة لأنواع النصوص الشفهية المختلفة 
ضمت المواد الإدارية الرسمية الأنواع التالية: المحاضرات وما يتعلق بها 
من أحداث تتصل بالمعلومات الخاصة بالعملية التعليمية؛ وتسجيلات الفيديو 
واستطلاعات الرأي والاختبارات الشفهية وما شابه ذلك من أنشطة؛ بالإضافة 
إلى النشرات المصورة والخطب الحكومية والمؤتمرات العامة والاجتماعات 
البرلمانيةء وغير ذلك من الأعمال الحكومية والعامة؛ كما ضمت الذخيرة 
التعليقات الرياضية المُصَوّرة وأنشطة gal gill‏ والأحاديث الإذاعية عبر 
التليفون وغير ذلك من الأنشطة الترفيهية والحوارات. وقد تم جمع هذه 
النصوص الشفهية بصورة منتظمة من عدد ١١‏ منطقة على مستوى 
بريطانيا. 
والجدول التالي يوضح النسب التي يحتلها كل نوع من النصوص داخل 
الذخيرة. 
جدول (Y-Y)‏ توزيع المواد اللغوية الشفهية حسب 
السياق داخل ذخيرة بي إن سي | 


المواد الإدارية 
الرسمية 








نسبة التمثيل داخل 
الذخيرة 

























0000111 موك تا‎ 
ATAY EPET 







%11,1 


















| مواد تزفيهية 5 4,6 9/07 
من دون تصنيف YA‏ % 
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ب) النصوص الشفهية المأخوذة من العينات الإحصائية 

المصدر الثاني للنصوص الشفهية يضم Éa ٤‏ قدمها dae‏ من 
المتطوعين» وقد وصل حجم هذه المادة إلى 7٠٠٠١‏ ساعة AGa‏ تم تحويلها © 

إلى مكافئ كتابي. وتضم الحوارات موضوع تلك التسجيلات جميع مناحي 
الحياة المختلفة» وتم جمعها من عدد ۳۸ منطقة إدارية على مستوى إنجلتراء 
وينتمي هؤلاء (ذكور وإناث) إلى > طبقات اجتماعية مختلفة» وقد وزعت 
المادة متوازية على أشخاص من الذكور والإناث في أعمار تتراوح بين ١٠ء‏ 
و٠٠‏ عامًا أو أكثر. وكان كل متطوع أو متطوعة يحمل جهاز تسجيل 
محمولاً على الكتف» ويقوم بتسجيل حوارات كاملة بين الأشخاص على مدى 
يومين بصورة لا.تلفت الانتباه. ثم J‏ جميع الأشخاص أنه قد تم تسجيل 
حواراتهم» وإعطائهم سلطة حذف ما يرغبون من محتوى شريط الكاسيت. 
كما تم تسجيل جميع المعلومات الخاصة بمحيط الحديث» وجميع المعلومات 
المتعلقة بالمتحدثين. وتشتمل تلك التفاصيل الخلفية الثقافية للمتحدث؛ 
والحركات التي يقوم بها في أثناء الحديثء بالإضافة إلى مكان الحوار وزمنه 
وتاريخه والمستمعين ودرجة الارتجال وموضوع الحديث ونوع المشاركين 
وأعمارهم وجنسياتهم ووظائفهم ودرجة تعلمهم ودرجاتهم الاجتماعية 
وعلاقتهم بالمتحدث» ودرجة اللغة العامية المستخدمة وغير ذلك. وقد تم 
تحويل النصوص A‏ كافة إلى شكل تحريري كلمة بكلمة. مع عدم 
إغفال الوقفات» والتردد في أثناء الحديث؛ والأخطاء اللغويةء والتكرار سواء 
على مستوى الصوت أو الكلمة أو غير ذلك. بالإضافة إلى الحديث بصوت 


129 


عال والتهامس وغير ذلك من الخصائص اللغوية الفائقة. ولم يتم وضع 
ترميز للخصائص الصوتية وتم الاكتفاء بوجود معلومات قليلة عن الإيقاع؛ 
ولذلك يمكن أن تستخدم ذخيرة بي إن سي BNC‏ في إجراء ما نحتاج إليه من 
الدراسات الصوتية الدقيقة للغة. | 


*- الخدمات التي تقدمها ذخيرة بي إن سي BNC‏ 

تم تحويل جميع النصوص الموجودة بذخيرة بي إن سي إلى نصوص 
مطابقة للمواصفات القياسية الدولية للنشر الإلكتروني sad- LÍ (SGML)‏ 
اللغوية Jala‏ الذخيرة فقد ube‏ عليها نظام الترميز الخاص بالأنواع النحوية 
. للكلمات الذي طورته جامعة لانكاستر والمعروف CLAW aul)‏ كما wo‏ 
ذخيرة بي إن سي واجهة برمجية قوية للبحث عن المعلومات والاستعلام 
kie‏ داخل الذخيرة» وبإمكان تلك الواجهة البرمجية أن MG‏ عمليات البحث 
المعقدة والاستعلام داخل متن الذخيرة اللغوية. 
ثامنا: الذخيرة الدولية للغة الإنجليزية 

في عام ۱۹۸۸ طرح جرينباوم (Greenbaum)‏ اقتراحًا بإنشاء ذخيرة 
دولية للغة الإنجليزية فائقة الحجم وتطويرهاء وأطلق عليها اسم الذخيرة 
الدولية للغة الإنجليزية (The International Corpus of English)‏ ويطلق 
عليها اختصارً! آي سي إي .ICE‏ والهدف من تلك الذخيرة هو إجراء 
دراسات مقارنة بين اللغة الإنجليزية في عدد من الدول الناطقة بها. ويشمل 
نطاق المقارنة كلا من المستوى التحريري والشفهي للغة. وتضم الذخيرة 
الدولية للغة الإنجليزية الموجودة حاليًا عدد ٠١‏ ذخيرة فرعية يصل حجم 
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المادة اللغوية في كل منها مليون كلمة. وقد تم اختيار المادة اللغوية فيها 
جميعًا من الأشخاص البالغين الذين تجاوزت أعمارهم VA‏ عاماء الذين تلقوا 
A ooh gl apa‏ الثانوية وما بعدها. وتلك الذخيرة تضم الدول . 
. التي تتحدث تتحدث اللغة الإنجليزية كلغة أولى؛ مثل مثل: إنجلترا وأميركا وكندا والنمسا 
ونيوزيلندا وما إلى ذلك كما تضم الدول التي تعتبر اللغة الإنجليزية هي 
اللغة الرسمية لها أو لغة الغالبية فيها؛ مثل: الهند ونيجيريا وسنغافورة وغير 
ذلك. وتغطي المادة للغوية التي جُمعت لهذه الذخيرة الفقرة من ١190٠‏ 
حو Fes‏ : 

وعلى الرغم من أن الغرض من إنشاء الذخيرة الدولية للغة الإنجليزية 
كان إجراء دراسات مقارنة على اللغة الإنجليزية» فإن كل ذخيرة من الذخائر 
الفرعية المكونة لها يمكن الاعتماد عليها بمفردها في عمل دراسات وصفية 
للغة الإنجليزية في كل دولة بمفردها. وقد تمكن الياحثون من خلال هذه 
الذخيرة من اكتشاف بعض أنواع الاختلافات في استخدام اللغة الإنجليزية 
باختلاف «J gall‏ على سبيل المثال التعرف على الدول التي eas‏ عبارة 
(different from)‏ والدول الأخر ی التي تستخدم LS «(different to)‏ يمكن 
ey eS‏ 
مثل استخدام أسلوب النفي التوكيدي وغير ذلك. 

كانت أول ذخيرة فرعية تم إنشاؤها في إطار الذخيرة الدولية للغة 
الإنجليزية هي الذخيرة الإنجليزية البريطانية. ومكونات هذه الذخيرة تتنضح 
من خلال الجدول رقم . وبعد ذلك اتبَعَت باقي الذخائر اللغوية في الدول 
الأخرى الهيكلية نفسها في بناء A-Y‏ محتوي كل منها. وتحتوي كل ذخيرة 
فرعية في الذخيرة الدولية للغة الإنجليزية Ors‏ ادويق له سيت عل 
عينة ٠٠٠١‏ كلمة تقريبّاء وتشغل المادة التحريرية نسبة ۰ من محتويات 
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الذخيرة» وغالبية المادة الشفهية التي تصل إلى Ves‏ نص عبارة عن 
حوارات عامة معلنة. . 


جدول (۸-۲): بنية الذخيرة الدولية للغة الإنجليزية 


مستوى اللغة الشفهية (300 نص) 
حوارت )180( 
حوارات خاصة )100( 
حديث مباشر (90) 
حديث عبر الهاتف (10) 
موضوعات áló‏ )80( 
محاضرات )20( 
مناقشات عبر الإذاعة (20) 
أحاديث إذاعية (10) 
مناقشات مجلس الدولة )10( 
مداولات قضائية )10( 
شؤون تجارية (10) 
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إخبارية (علمية) )40( 
ب )10( 
علوم اجتماعية (10) 
علوم طبيعية )10( . 
تكنولوجيا )10( 
إخبارية (Ate)‏ )40( 
Sivas‏ )10( 
علوم اجتماعية )10( 
العلوم الطبيعية (10) 
نصوص 4% )10( 
نصوص إخبارية )20( 
تكارير )20( 
التعليم (20) 
نصوص إدارية / تعليم نظامي )10( 
مهارات/ cue‏ )10( 
cigars‏ )10( ` 
افتتاحيات الأخبار )10( 
خيال (20) 
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الفصل الخامس 
بناء الذخائر اللغوية الصينية 


إن الغرض من بناء ذخيرة للغة الصينية يبدأ أساسًا من الحاجة الماسة 
إلى التحليل الإحصائي للغة الصينية. ويشمل التحليل الإحصائي للغة الصينية 
الدراسات القائمة على معدل تكرار الرموز والمفردات الصينية؛ وذلك من 
أجل بناء قوائم الرموز والمفردات شائعة الاستخدام في اللغة الصينية. 
ويتطلب el ya}‏ دراسات إحصائية على اللغة الصينية التعامل مع حقائق لغوية 
هائلة العدد» وهذا يعني بناء ذخيرة لغوية ذات حجم مناسب لتلك المهمة. في 
البدايات الأولى للذخائر اللغويةء كان هذا العمل الإحصائي يتم من خلال 
المجهود البشري. في الغرب» كان أول معجم لغوي قائم على دراسة . 
إحصائية بالمجهود البشري aii‏ العالم اللغوي الألماني كايدن (Kaeden)‏ 
عام 1898. أما في الصينء فكان أول إحصاء قائم على الاستخدام الحديث 





)1( فريدريش ALLE‏ كاين (Friedrich Wilhelm Kaeden)‏ (۱۹۲۸-۱۸۳): قثم في عام ۱۸۹۸ 
بالتعاون مع ثمانمائة شخص دراسة إحصائية يدوية على ذخيرة تحريرية كبيرة الحجم من أربعة عشر 
مصدر! للجرائد والمجلات؛ وبمساعدة عدد خمسة آلاف ناسخ اسخ سريع على الآلة الكاتبةء وقد استغرق هذا 
I‏ ا حي ane‏ د ا ما 
عليها في تليف أول معهم GAS‏ للكلمات على مستوى pall‏ وهو ((المعجم التكراري لكات في 
اللغة الألمانية))» وقد اعتبر هذا العمل أول دراسة بحثية على الكلمات باستخدام الأسلوب الإحصائي 
بمفهومه الحديث. (المترجم) 
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للغة الصينية ol pal‏ العالم التربوي تشن خه تشين في عام ۱۹۲۸“ بطريقة 
يدوية مع أربعة من مساعديهء وقد استغرق هذا العمل منهم ما بين عامين 
إلى ثلاثة cal gel‏ وقد استعانوا في ذلك بذخيرة لغوية مكونة من ٠٥٤٤۹۸‏ 
رمز صيني» تندرج تحت ستة أنماط من النصوص. وقد أظهرت نتائج 
الإحصاء أن الرموز الصينية التي تكررت داخل هذه الذخيرة يصل عددها 
إلى 475١‏ رمزاء ومن بين هذه الرموز كان هناك أكثر من ٠٦۹‏ رمزا 
تكرر أكثر من ثلاثمائة مرة» و57١١‏ رمزا! تكرر ASÍ‏ من مائة b ja‏ وما 
زالت الأرقام الإحصائية التي توصل إليها السيد تشن خه تشن ذات موثوقية 
علمية كبيرة حتى الآن. ومع حلول سبعينيات القرن العشرينء اسستعانت 
الصين بالجهود البشرية في إتمام عملية إحصاء لمعدلات تكرار الرموز 
الصينية في ذخيرة لغوية كبيرة الحجم تصل إلى أكثر من ملياري رمز 
صيني» وهذا ما اشتهر باسم 'المشروع رقم IVER‏ | 

ويُعتبّر التغلب على إشكاليات إدخال الرموز الصينية إلى الحاسب 
الآلي بمثابة وضع حجر الأساس بصورة ملموسة أمام أبحاث الذخائر اللغوية 
الرقمية باللغة الصينية. فمع نهاية سبعينيات القرن العشرين» أنشأت الصين 
على التوالي عدذا من الذخائر اللغوية الرقمية كبيرة الحجم التي تستخدم 
منهجيات التحليل الكمي للغة الصينيةء ويُغتبر نشر (المعجم الإحصائي لمعدل 
تكرار الرموز الصينية)ء و(معجم الرموز الأكثر شيوعًا في اللغة الصينية) 
وغيرهما من المعاجم من أهم النتائج العلمية لهذه الفترة. ومع حلول ثمانينيات 
القرن العشرين؛ استعان العاملون في مجال معالجة المعلومات باللغة الصينية 
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بالذخائر اللغوية بصورة أساسية لعمل تمييز آلي لحدود الكلمات داخل 
النصوص الصيينة» وكان ذلك بمثابة المشروع الأساسي لبناء أنظمة الترجمة 
الآليةء والفهم الآلي للكلام» وغير ذلك من التطبيقات القائمة على معالجة 
المعلومات باللغة الصينية. وبحلول تسعينيات القرن العشرين» وتمشيًا مع 
الارتفاع المتزايد لقدرة الحاسب الآلي على تخزين المعلومات ومعالجتهاء 
زادت أيضنًا القدرة على معالجة الرموز الصينية. ففي البدايةء كانت الذخائر 
اللغوية الصينية يتم بناؤها لأغراض ومهام بحثية محددة» مثل عمل 
إحصاءات عن معدلات تكرار الرموز والمفردات الصينيةء وهذا يختلف عن 
وظائف الذخائر اللغوية الحديثة التي يكون لها استخدامات واسعة النطاق» 
التي لا تقتصر فقط على عمل الدراسات اللغويةء بل تمتد إلى عمل دراسات 
معالجة اللغات الطبيعية وما إلى ذلك. LE ehg‏ الفصل الحالي من الكتاب بعدد 
من الذخائر اللغوية القياسية للغة الصينية الحديثة. 
أولاً: الذخائر المخصصة لإحصاء معدل تكرار الكلمات في اللغة الصينية 
١‏ - مشروع الذخيرة اللغوية العامة بجامعة اللغات والثقافة ببكين 

لقد نتج عن هذا المشروع (معجم معدل تكرار الكلمات في اللغة 
الصينية الحديثة). ومن أجل تأليف هذا المعجم""“'ء ald‏ مركز الأبحاث اللغوية 
بجامعة اللغات والثقافة ببكين بإنشاء ذخيرة لغوية باللغة الصيئية الحديقة 
تصل إلى مليوني رمز صيني. وفيما يلي نستعرض تفاصيل eli Angin‏ هذه 
الذخيرة: استخدام مختلف المواد اللغوية في مختلف الموضوعات لبناء 
الذخيرةء واستخدام أسلوب العمل اليدوي في عمل تمييز لحدود الكلمات» ثم 
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الاستعانة بالحاسب الآلي في إنهاء age‏ إحصاء معدلات تكرار الرموز 
والمفردات الصينية داخل الذخيرة. وقد أتاح هذا المشروع إمكانية عمل 
دراسة استطلاعية شاملة عن الاستخدام الواقعي للرموز والمفردات الصينية 
في اللغة الصينية a‏ دراسة إحصائية وتحليلية لنظفروف توزيع 
المفردات الصينية في مختلف النصوص بالإضافة إلى معدلات التكرار 
وسنت الاستخدام» فضلاً عن عمل مقارنة بين القيم التي تمت مشاهدتها وبين 
القيم المتوقعة؛ كما تم إحصاء معدلات ظهور الرموز الصينية في النصوص 
وتحليلهاء ومقارنة قدرتها على تكوين الكلمات من خلال موقع كل منها داخل 
الكلمة. وكان الهدف من المشروع عرض ملامح استخدام الرموز والمفردات 
الصينية من خلال دراسات إحصائيةء والتمييز بين درجات الاستخدام الأكثر 
LE gut‏ لكل من الرموز والمفردات الصينية» وبعد إجراء اختبارات عشوائية 
لمعدلات التغطيةء تم عمل تقييم لكامل النتائج التي تم التوصل إليهاء وفي 
النهاية عرضصت قوائم المفردات والرموز النهائية وفقا للشروط الموضوعة 
سابقا مرفقا بها المعلومات الإحصائية الخاصة بها. 

ويقدم المرجع رقم ا شرحًا تفصيليًا للأعمال التي قام بها فريق بناء 
تلك الذخيرة اللغوية. 

أ) تحديد قواعد اختيار العينات اللغوية 


في أثناء بناء الذخيرة اللغوية» استرشد مصممو الذخيرة بحدود اختيار 
المادة اللغوية في الذخائر السابقة» مع مراعاة مدى شيوع الاستخدام داخل 
ee‏ وفي النهاية تم الا ستقرار على أن يكون اختيار المادة اللغوية من 
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الجرائد والمناقشات السياسيةء والمؤلفات العلميةء والحوارات اليوميةء 
والمؤلفات الأدبيةء وما إلى ذلك. وفي الوقت ذاتهء تم التطرق إلى الاستعانة 
بنماذج من النصوص اللغوية في المرحلتين الابتدائية والإعدادية؛ بحيث تتمتع 
تلك النصوص بأسلوب لغوي قياسيء بالإضافة إلى مراعاة التدرج في 
المعلومات اللغوية والثقافية لمضمونها؛ ولذلك تم اعتماد النصوص اللغوية 
المعتَمَدَة من JE‏ الحكومة الصينية في الفترة ما بين ۱۹۸۰-۱۹۷۸ كمواد 
دراسية للمرحلتين الابتدائية والإعدادية. ويتمثل توزيع المواد اللغوية التي تم 
انتقاؤها للذخيرة المذكورة كما يلي: 

المجموعة |: Aulus‏ واقتصادء وفلسفة» وقانون» وتاريخ» وجغرافياء 
وشئون عسكرية وما إلى ذلك من المقالات الصحفية والمؤلفات التي تعكس 
ملامح الحياة في المجتمع الصيني الحديث» بما يزيد عن ٠٤١‏ ألف رمز 
صيني وما يمثل نسبة %۲٤,٤‏ من إجمالي حجم الذخيرة. 

المجموعة ب: Ayal i jee‏ ام LGA‏ من المستوى Jana all‏ لخلم 
الرياضيات» والأحياءء والطب» والهندسةء والتكنولوجياء وعلوم الطيران 
والملاحةء والفضاءء وتاريخ العلوم» والسيرة الذاتية للعلماءء بالإضافة إلى 
مقالات علمية كلق بالتلبين Blends Lally‏ فيا يل إلى ماين وشن 
ألف رمز صيني» وتشغل نسبة %٠١,۸‏ من حجم الذخيرة. 

المجموعة ج: مواد شفهية حول مواقف للحياة اليومية؛ حيث تم اختيار 
أعمال مسرحية شهيرة تعكس مختلف جوانب الحياة (أعمال لكل من قوه مو 
روه» ولاو Ad‏ وتيان خان» وتساو يوء وو تزي جوانغ)» بالإضافة إلى 
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حوارات كوميدية وحكايات قصصية وما إلى ذلك. هذا بالإضافة إلى التطرق 
إلى احتياجات الحياة اليومية من التعامل الشفهي اليومي؛ وقد تم الحصول 
على eja‏ من الذخيرة الشفهية عن طريق التسجيل في موضوعات محددة 
والتسجيل في موضوعات عشوائية لمادة شفهية. وقد وصل مجموع المادة 
اللغوية التي تم جمعها إلى ما يقرب من مائتي ألف رمز تحتل نسبة %٠١,۹‏ 
من حجم الذخيرة. 

المجموعة د: روايات» وقصص yaad‏ وأعمال نثرية» وقصص أطفال 
تصل إلى ما يقرب من ۸٠١‏ ألف رمز صينيء تحتل نسبة %٤۸,۷‏ من إجمالي 
حجم الذخيرة. وعند اختيار الأعمال الأدبية تمت مراعاة القواعد التالية: 

-١‏ التركيز على أن تكون الأولوية في الاختيار للأعمال الأدبية 
الصينية المتميزة منذ حركة الرابع من مايوء يلي ذلك الأعمال 
الأدبية التي تمثل الاستخدام اللغوي الجيدء مع تغطية معظم التيارات 
والأساليب اللغوية. 

-Y‏ الإكثار من اختيار الأعمال الأدبية التي تنتمي إلى الفترة ما بين 
أربعينيات إلى سبعينيات القرن العشرين. وبالنسبة إلى الموضوعات 
فقد تم التركيز على أن يتطرق الاختيار إلى معظم موضوعات 
الكتابة الأدبية (الحرب» والبناء» والمصانعء والقرية»ء والمدينةء 

. والطبقات الاجتماعيةء والأقليات القومية» والشخصيات التاريخية» 
ومختلف جوانب الحياة)ء وقد حاول فريق العمل أن يحقق التوازن 
بين حجم المادة اللغوية في جميع المجالات. 
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-r‏ الاحتفاظ بتكامل النسخة الأصلية للعمل الأدبي؛ خيث روعي أن 
تحتوي الذخيرة نصوصا قصيرة كاملة في إطار عشرة آلاف رمز 
صيني» Ul‏ غالبية الأعمال الأدبية الأخرى فقد روعي اختيار أجزاء 
كاملة منها بالإضافة إلى مراعاة أن تكون تلك الأجزاء a Fide‏ 
للعمل الأدبي. 

وبالنسبة إلى مجمل المادة اللغوية» فقد كان الاهتمام بأن يتم اختيار 

المادة بأسلوب العينات المتساوية في الحجم فيما يتعلق بالأعمال التي تتناول 
المناقشات السياسية والمؤلفات العلمية؛ وذلك من أجل أن تكون المفردات 
ذات تغطية ALLE‏ وموضوعية. أما Lad‏ يتعلق بالأعمال المسرحيةء فقد اهتم 
مصممو الذخيرة بعمل الإحصاء على مشاهد كاملة من المسرحيات؛ حيث. 
اقتصر الأمر على الحوار المسرحي والحوارات الداخلية للشخوص 
المسرحيةء ولم يتم إدراج وصف المشاهد وغيرها من المواقف السرأدية داخل 
العمل المسرحي في عملية الإحصاء. أما فيما يتعلق بدروس الأدب واللغة في 
المرحلتين الابتدائية والإعداديةء فبالإضافة إلى النصوص الكاملة من اللغة 
الكلاسيكيةء والشعرء والأعمال المترجمة عن اللغات الأجنبيةء فقد تم عمل 
إحصاء بمعدل تكرار الرموز والمفردات داخل الأعمال بكاملها. مجمل 
القول: إن مصممي الذخيرة كانوا على قناعة أن أفضل قاعدة لاختيار عينات 
النصوص داخل الذخيرة هي مراعاة نسبة التمثيل وتعدد التخصصات. 
والتجانس» مع الاهتمام بالتعامل مع مشكلة الحجم الكلي للذخيرة 
بأسلوب علمي. 
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فحجم الذخيرة إذا كان صغيرًا جذاء لن تتمكن الذخيرة من التعبير عن 
المشكلة محل الدراسةء أما إذا كان الحجم كبيرًا فعلى الرغم من ارتفاع درجة 
دقة النتائج الإحصائية» فإن الفائض اللغوي في تلك الحالة سيكون كييرًا fae‏ 
فضلاً عن التكلفة الاقتصادية العالية. وقد راعى مؤلفو (معجم معدل تكرار 
الكلمات في اللغة الصينية الحديثة) مقدار التكامل بين هذين العضصرين 
بصورة كبيرة في عملية اختيار المادة اللغوية وتحديد نطاقها. 

=( النتائج البحثية لتلك الذخائر اللغوية 

تختلف اللغة الصينية عن غيرها من اللغات الأجنبية التي تعتمد على 
الأبجدية الكتابية؛ حيث تفتقر اللغة الصينية إلى العلامات الصرفية التي تَعَبّر 
عن نوع الكلمةء بالإضافة إلى عدم وجود علامات فاصلة بين الكلمات 
بعضها البعضء الأمر الذي tithe Fs‏ كبيرًا أمام عملية إحصاء المفردات 
الصينية داخل الذخائر اللغوية. ولذلك فعند عمل معالجة آلية للغة الصينية 
الطبيعية تكون البداية بعمل تمييز لحدود الكلمات داخل الذخائر الصينية. وفي 
تلك الفترة كانت جميع الدراسات العلمية التي تسعى إلى تصميم برمجيات 
للتمييز الآلي لحدود المفردات الصينية تستخدم منهجيات مختلفة» ولن يتم 
تجربة تلك البرمجيات بصورة عملية على الواقع اللغوي؛ ولا يمكن القول: 
إن هذه التجارب قد خرجت من إطار النظرية إلى حيز التطبيق» ولا يمكن 
الادعاء أن مشكلة التمييز الآلي للمفردات الصينية قد تم lela‏ بصورة ALIS‏ 
فما زال هناك نقاط عديدة في تلك البرمجيات تحتاج إلى تعديل وتحسين في 
الأداء. إن مشروع إنشاء هذه الذخيرة اللغوية الذي بدأ عام 19179 قد تم في 
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. ظل تلك الظروف. وفي ذلك الوقت تم الاستعانة بالعنصر البشري في إتمام 
عملية تمييز حدود المفردات الصينية» بالإضافة إلى وضع رموز خاصة 
SA‏ خصائص كل عينة لغويةء وفي النهاية تم الاستعانة بإمكانات الحاسب 
الآلي في إنهاء عمليات SS sill‏ والإحصاءء والتحليل» والتجميع وما إلى ذلك 


أولاً: المهام الإحصائية على مستوى. المفردات في اللغة الصينية الحديثة 
تشمل ما يلي: 


-i‏ تصنيف المفردات وتجميعهاء ورصد عدد مرات تواتر المفردات» 
والعدد الإجمالي لأنواعهاء والعدد التراكمي لهاء وحساب معدل ` 
التكرار النسبي والتراكمي للمفردات. 

ب- حساب معامل انتشار كل نوع من أنواع المفردات الصينية داخل 
الذخيرة» ومؤشرات الاستخدام. 

ج- تحديد درجات الاستخدام لكل المفردات وفقا لمعدلات تكرارها 
داخل النصوص الصينية» وحساب متوسط طول المفردات الصينية ۰ 
مع تحديد عدد أنواع الكلمات المتواجدة في كل درجة وطرق 
توزيعها داخل كل طول من أطوال الكلمات. 

د- حساب أعلى قيمة مشاهدة وأعلى قيمة مُحْتَمَلة داخل الكلمات ذات 
معدل التكرار الأعلى. 
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ه- إظهار نسب تواجد المفردات أحادية المقطع الصوتيء وثنائية 
وثلاثية ورباعية المقطع وما هو أكثر من ذلك داخل النصوص 
الصينية. 


و- وضع قائمة بترتيب المفردات حسب درجة تكرارها. 

5 — وضع قائمة بترتيب المفردات حسب درجات الاستخدام. 

ح- وضع قائمة للمفردات ذات معدل التكرار الأقل؛ مشل المفردات 
التي تكررت أقل من خمس مرات» وأقل من عشر مرات. 


: المهام الإحصائية على مستوى الرموز الصينية تشمل ما يلي: 


أ- إظهار العدد الإجمالي لأنماط الرموز الصينيةء وتوليد فهرس 
إجمالي للرموز الصينية. 

ب- إحصاء عدد مرات تكرار الرموز الصينية في كل نمط من 
الأنماطء وحساب معدل التكرار النسبي ومعدل التكرار التراكمي 

ج- إحصاء عدد مرات اشتراك كل نمط من الرموز الصينية في 
تكوين المفردات» والمواقع المختلفة التي يحتلها داخل الكلمة (بداية 
الكلمةء ووسط الكلمةء وذيل الكلمة) 

د- وضع قائمة للرموز الصينية حسب معدلات تكرارهاء ووضع قائمة 
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ىو 


؟ - الذخيرة اللغوية التي أنشأتها جامعة الطيران الصينية بالتعاون مع عدد 
من الجامعات 

في التاسع عشر من شهر نوفمبر عام ١۱۹۸ء‏ كلفت أكاديمية البحسث 
العلمي الصينية هيئة التوحيد القياسي Ms‏ عمل "إحصاء عدد مرات تكرار 
المفردات في اللغة الصينية الحديثة"؛ وقد تولت جامعة الطيران الصينية 
رئاسة هذا المشروع بمساعدة كل من جامعة الشعب الصينية» وجامعة (OSs‏ 
وجامعة وو خان وغيرها من عشر جامعات صينية أخرى. وقد تم الانتهاء 
من هذه المهمة عام ١۱۹۸ء‏ وفي الثلاثين من يونيه عام 1۹۸١‏ حصل 
مشروع "إحصاء عدد مرات تكرار المفردات في اللغة الصينية الحديثة" على 
تمويل من الحكومة الصينية. وفيما يلي تعريف بالأعمال التي تم إنجازها من 
خلال المشروع MA‏ 

أ) مكونات الذخيرة 

تنحصر حدود المادة اللغوية التي تم اختيارها لمشروع إحصاء معدل 
تكرار المفردات في اللغة الصينية الحديثة في المطبوعات الرسمية في الفترة 
ما بين e AAY-‏ وقد تم تقسيم تلك الفترة إلى أربع فترات زمنية 
فرعيةء الفترة الأولى (515١-553١)ء‏ والفترة الثانية (0٠96١11156-1١)؛‏ 
والفترة الثالثة (5575١375-1١)ء؛‏ والفترة الرابعة (۱۹۸۲-۱۹۷۷). وفي كل 
فترة من الفترات سالفة الذكرء تم جمع المادة اللغوية من خلال فرعين لغويين 
أساسيين هما فرع العلوم الاجتماعية وفرع العلوم الطبيعية» وكل فرع من 
تلك الأفرع الرئيسة تم تقسيمه إلى خمسة تخصصات فرعية. وللتعرف على 
مزيد من المعلومات حول tele‏ تلك التخصصات انظر الجدول رقم “SAV‏ 
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جدول )4-1( توزيع المادة اللغوية بمشروع الذخيرة 
اللغوية لجامعة الطيران ببكين | 
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أ- الجرائد والمجلات. 

ب- المقررات الدراسية. 

a‏ المؤلفات. 

د- المطالعات العامة (بما في ذلك المؤلفات في العلوم الأساسية). 

ولا تتضمن ol gall‏ اللغوية السابقة الأعمال المُترجمة؛ حيث إن هذه 
الأعمال 565 على إنتاج GERM‏ المشهورينء بالإضافة إلى المؤلفات 
النموذجية في اللغات الأخرىء LS‏ أن عدد المؤلفات في العلوم الطبيعية كان 
منعدمًا في خلال الفترة الأولى (915١153-1١)؛‏ وذلك لعدم إمكانية العثور 
على مؤلفات في العلوم الطبيعية في تلك الفترة باللغة الصينية. : 

وقد وصل حجم المادة اللغوية التي تم جمعها لمشروع معدل تكرار 
المفردات في اللغة الصينية الحديثة ثلاثمائة مليون رمز صيني» وقد تم اختيار 
المادة اللغوية من خلال عدة أساليب لجمع العينات؛ كالعينات العشوائية والعينات 
المنتظمة (مثل عينات الفترة- والعينات الطبقية) وقد وصل الحجم الإجمالي 
للعينات المختارة إلى ما يقرب من VO‏ مليون رمز صيني. 

ب) استخدامات الذخيرة 

بعد ely‏ الذخيرة» ald‏ فريق العمل بتنفيذ الأعمال التالية: 

-١‏ تقسيم المواد اللغوية في الفترة ما بين ١519‏ و۱۹۸۲ إلى أربع 

فترات» كل فترة تضم مواد تمثل العلوم الاجتماعيةء وأخرى للعلوم 
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تم عمل إحصاء للمفردات على كل قسم من تلك الأقسام بمفردهاء 
الترقيم الصينية التي تصل إلى أربع عشرة علامة. 

-Y‏ استخدام برمجية التمييز الآلي لحدود المفردات الصينية المعروفة 
باسم CDWS‏ للمرة الأولى. 

-٣‏ تصميم برمجية حاسوبية متكاملة وإطلاقها لعمل الإحصاء اللغوي 
للكلمات في اللغة الصينية الحديثة. 

4 - تأليف معجم إلكتروني يتكون من Bale ٠۳١١١١‏ لغوية. 

5- بناء بنك معلومات عن الرموز الصينية يحتوي OY‏ خاصية من 

1- طباعة إحصاء عام عن معدلات تكرار المفردات في الفترات 
E‏ الزمنية الأربع 555-65 و56.8١9200556-1و555١1-‏ 
AAT— YAYY a AYT‏ بالإضافة إلى إحصاء عام عن معدلات 
تكرار المفردات الصينية على مستوى الغلوم الاجتماعية والعلوم 
الأولى حسب الترتيب الأبجدي لنطق الرموز اللصينيةء والثانية 
حسب معدل التكرار داخل الذخيرة. وقد وصل حجم المخرجات 
الورقية إلى عشرة GAY)‏ صفحة. 

وتَمَيّز هذا المشروع في ذلك الوقت بالخصائص التالية: 
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أ- تم النظر إليه باعتباره المشروع الإحصائي 53 النطاق الأوسع.في 
ذلك الوقت لإحصاء معدل تكرار المفردات الصينية؛ وذلك على 
مستوى الحجم وسعة انتشار المادة اللغوية على مدى زمني طويل 
وشمولية التخصصات التي جُمعت على أساسها المادة اللغوية. 

ب- تجائس التوزيع الكمي للعينات» وضالة التأثر بالخلفية الاجتماعية 
للنصوصء بالإضافة إلى دقة النتائج الإحصائية. 

ج- لأول مرة يتم عمل تمييز آلي لحدود المفردات في اللغة الصينية 
الحديثة على مستوى الصين. 

د- لأول مرة يتم استخدام الأكواد المختلطة لضغط الرموز والكلمات 
الصينية الأمر الذي أتاح إمكانية تمييز الرموز الصينية متعددة 
النطق» الأمر الذي جعل نتيجة الإحصاء أكثر دقة. 


名‏ إنشاء الذخيرتين السابقتين على وجه الخصوص لعمل إحصاء كمي 


باستخدام المفردات والرموز الصينية. إلا أنه للشسف لم تستمر عملية 
الاستفادة منهما في أعمال أخرى؛ بسبب عدم توحيد معايير التكويد الخاصة 


+f ep 


بالرموز فيهماء الأمر الذي جعل الاستفادة من هاتين الذخيرتين تتوقف عند 
حد Ega‏ الإحصاء اللغوي» وعدم استمرارية العمل بهما فيما بعد. وبذلك 
نكون قد عرضنا في النقطتين السابقتين أشهر ذخيرتين لغويتين للاستخدام 
العام في اللغة الصينية. 
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ثانيًا: الذخيرة المتوازنة لمعهد الدراسات المركزي بتايوان 

الذخيرة المتوازنة لمعهد الدراسات المركزي بتايوان (يطلق عليها 
اختصارًا ذخير ة ages‏ دراسات تايوان المعروفة (Sinica Corpus puly‏ وهي 
أول ذخيرة صينية متوازنة تحتوي ترميز! للأنواع النحوية للمفردات الصينية 
على مستوى العالم. وكان الهدف العام من تلك الذخيرة هو بناء ذخيرة 
متوازنة للغة الصينية تتكون من خمسة ملايين رمز صيني. 


-١‏ الفكرة من وراء بناء ذخيرة معهد الدراسات المركزي بتايوان 

سعى فريق العمل المُكلف ببناء ذخيرة معهد الدراسات المركزي 
بتايوان إلى جمع المادة اللغوية للذخيرة منذ عام Huang & ( ١53٠‏ 
02 وقد تم جمع نصوص صينية حديثة Led‏ يقرب من عشرة 
ملايين رمزء ونصوص صينية كلاسيكية تزيد عن مليون رمز ) © Huang‏ 
‘SI(Chen:1994‏ ونظرا إلى الكفاءة التي يتمتع بها الفريق في معالجة المواد 
اللغوية الصينية؛ بالإضافة إلى خبرتهم في معالجة الذخائر اللغوية الإلكترونية 
كبيرة الحجم «(K.J.Chen:1996)‏ فقد تمتع الفريق بعناصر قوة حقيقية» وضم 
كفاءات بشرية مكنته من الاضطلاع em‏ بناء ذخيرة متوازنة للغة الصينية. 
وقد استهدف فريق البحث في البداية بناء ذخيرة لغوية حجمها مليوني رمز 
صينيء ثم سعى إلى تحقيق المستهدف النهائي وهو الوصول بحجم ال ذخيرة 
إلى خمسة ملايين رمز بعد عدة سنوات» ومن É‏ الاقتراب من نطاق الذخائر 
اللغوية العامة التي 5 في حقل اللغويات الحاسوبية. وتظهر الفكرة من 
وراء بناء هذه الذخيرة اللغوية من خلال النقاط الثلاث التالية: 
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|( الالتزام بالمعايير القياسية لجمعية اللغويات الحاسوبية بتايوان في 
تمييز حدود الكلمات الصينية . 
إن تمييز حدود الكلمات الصينية من الشروط الأساسية التي تبدأ بها 
عملية معالجة اللغات الطبيعية باللغة الصينية. ولكن نظرًا إلى عدم وجود 
مسافات فاصلة بين حدودى المفردات بعضها البعض في المؤلفات التحريرية 
الصينيةء بالإضافة إلى وجود خلافات حول تلك الحدود الفاصلة والمحَدّدة 
للمفردات في اللغة الصينية من حيث وضع تعريف واضح وموحد لحدود 
الكلمة في اللغة الصينية» فقد تم الاتفاق بين أعضاء فريق بناء الذخيرة على 
اتباع مقاييس مَجْمّع اللغة الصينية بتايوان في تحديد قواع د تمييز حدود 
الكلمات الصينية. وهذا القرار ليس من شأنه فقط تشجيع المشاركة العامة في 
المادة اللغوية المُكوتة للذخيرة» بل من شأنه أيضًا تسهيل الحصول على تغذية 
راجعة مستمرة من مستخدمي الذخيرة عن آرائهم في الطريقة inal‏ في 
تقسيم المفردات داخل الذخيرة؛ الأمر الذي ينتج عنه مرجعية age‏ لتصحيح 
مسار تمييز حدود الكلمات الصينية داخل النصوص فيما بعد. 
ب) عند اختيار العينات للذخيرة تم اعتماد وحدة الاختيار لتكون اكتمال 
الفقرات بشكل طبيعي» وليس طول النصوص. 
فقد كان أحد المعايير Mel‏ داخل ذخيرة براون هو السعي إلى 
تحقيق التوازن في توزيع المادة اللغوية على التخصصات المختلفة» وقد أدى 
ذلك إلى اعتماد طول موحد لاختيار العينات العشوائية في الذخيرة؛ بحيث 


يكون.طول كل نص ٠‏ كلمة. وقد رأى فريق العمل في ذخيرة معهد 
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الدراسات المركزي بتايوان أن اتباع تلك الطريقة من شأنه أن يتسبب في 
عدم اكتمال المضمون اللغوي للعينات. وبالإضافة إلى ذلك» فإن طول النص 
دائمًا ما يعبر عن إحدى الخصائص المهمة في النصء فإذا تم اختيار 
النتصوص على اعتبار طول Riga‏ من حيث عدد الكلمات؛ فإن ذلك RS‏ 
هذه الخاصية. ولذلك»ء فعلى الرغم من أن ذخيرة معهد الدراسات المركزي 
بتايوان قد تجنبت اختيار النصوص الطويلة Éa‏ والنصوص القصيرة جذاء 
فإنها لجأت بعد تحديد النص إلى معيار أخذ العينات liiy‏ للحدود الطبيعية 
للفقرات. فقد كانوا يعتقدون أن هذا التصرف يُمكنهم من الحصول على 
se peed‏ :ذلك glee‏ مات نة متكاملة: 

ج) استخدام عدة مستويات لتمييز حدود الكلمات في المادة اللغوية 

نظرا إلى تعدد al gall‏ التي تؤثر في ملامح اللغة بصفة عامةء فإن 
النظر إلى اللغة من خلال خاصية معينة مثل الموضوع وأسلوب الكتابة في 
تحديد الذخيرة المتوازنة يُعتبر yd‏ غير كاف. ورغبة في التغلب على 
النظرة السطحية في توصيف المادة اللغوية: فد لجا فريق بناء الذخيرة إلى 
خمسة jules‏ مختلفة يتم النظر إلى العينات من خلالها هي: أسلوب الكتابة 
والفكرةء والبناء اللغوي» والعنوان» ووسيط النشر. وعلى الرغم من أن فريق 
العمل قد لجأ إلى أن يكون العنوان هو المعيار الأساس في تحقيق التوازن في 
الذخيرةء فإنهم كانوا يأملون بعد تحقيق عدد من النتائج» في إمكانية استخدام 
. أكثر من معيار لتحسين مستوى التوازن في ذخيرتهم» على أن يكون ذلك في 
مرحلة لاحقة من العمل. وهناك فائدة أخرى من هذا الأسلوبء ألا وهي 
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. تسهيل العمل في بناء الذخيرة. وذلك على أساس أن الباحثين الذين 
سيستخدمون الذخيرة فيما بعد بإمكانهم اختيار مجموعة من المعايير يتم العمل 
على أساسها في توليد ذخائر فرعية خاصة LS cogs‏ يمكنهم عمل دراسات 
مقارنة على تلك الذخائر الفرعية. 
-Y‏ تصنيف المادة اللغوية وطرق اختيار النصوص في الذخيرة المتوازنة 

من أجل التوصل إلى إدارة متميزة في عملية اختيار المادة اللغوية 
بصورة متوازنة» citi J‏ مع كل وحدة لغوية علامات خاصة توضح أسلوب 
الكتابة» والفكرة» والبناء اللغويء والعنوان» ووسيط النشرء بالإضافة إلى اسم 
المؤلف» cde gig‏ وجنسيته»ء ودار النشرء وما إلى ذلك من خصائص. 

أ) تحديد خصائص النصوص 

بعد الاطلاع على الخبرات السابقة في إدارة كل من ذخيرة لوب» 
وبراون» وكوبويلدء فقد تم الاستعانة بالمبادئ المتبعة في تصنيف الكتب» وقد 
خد فزق العمل قائية كن OE‏ غلل Pe De‏ شنت ESE E‏ 
وهذه الخصائص يتم الاستعانة بها في توضيح مصدر المادة اللغويةء وأسلوب 
الكتابةء والمضمون الذي تدور حوله المادة اللغوية وغير ذلك فالعنوان يُعَبْر 
عن مضمون النص» وتصنيفه؛ أما أسلوب الكتابة فيوضح طريقة التعبير عن 
النص. بالإضافة إلى وضع علامات خاصة توضح ثلاثة مستويات معلوماتية 
هي وسيط النشرء والمؤلف» ودار النشر. فوسيط النشرء يُوَضّح من خلال 
تحديد مصدر المادة اللغوية. والمعلومات الخاصة بالمؤلف توضّح من خلال 
كتابة اسم المؤلف» eae gig‏ وجنسيته: ولغته الأم. ودار النشر gh‏ مسن 
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خلال تسجيل المغلومات الخاصة بالطباعة كاسم دار النشرء وتاريخ النشرء 
وعدد الطبعات. 

ب) الموضوع 
استخدم فريق إنشاء الذخيرة منهجية تضنيف الكتب في علم المكتبات كأساس 
لتحديد خصائص الموضوعات. 

أنواع النصوص يقصد بها أسلوب كتابة النص؛ حيث تنقسم النصوص 
إلى تقاريرء ومناقشات» وإعلانات» ومراسلاتء ومكاتبات رسميةء وقصص»ء 
وأساطير» ونثرء ومذكرات» وسيرة ذاتية» وشعرء وسجلات» وكتالوجات» 
ومسرحيات» وحوارات» وخطب» وسجلات المؤتمرات. وقد استعان 
المصممون بالنصوص الاستشهادية التي ترد على هوامش المجلات والجرائد 
المستخدمة ولكن بنسبة ضئيلة جدًا. Lol‏ المراسلات فقد كانت من FE‏ 
مصادر مختلفة: مراسلات القراء للجرائد والمجلات» ونماذج المراسلات 
المرفقة في المقررات الدراسبية العلمية:؛ والمراسلات الإلكترونية. أما 
النصوص المسرحية فمصدرها جميعًا من دروس مرحلة التعليم A IANI‏ 
وجميعها من النصوص النثرية وموضوعاتها في إطار أدب الأطفالء والشكل 
اللغوي لها عبارة عن لغة شفهية مدونة. أما الخطب فتضم مسودات الخطب 
حول المبادئ الثلاث للديمقراطية» بالإضافة إلى بعض الخطب التي تحولت 
إلى كتب.أو المنشورة في المجلات. ' 


2( وسيط النشر 


وسيط النشر يتم تقسيمه حسب مصدر المادة اللغوية إلى وسيطين 
مختلفين هما: الوسيط التحريري والوسيط الشفهي. فالوسيط التحريري للمادة 
اللغؤية يمكن تقسيمه إلى: ذوريات» وكتب» ومراسلات» ووسائط مرئية 
وسمعية» ومؤتمرات» ومتفرقات؛ وتضم الوسائط المرئية والسمعية الحوارات 
التي تستخدم في البرامج التليفزيونية بين سيدتين» بالإضافة إلى النصوص 
المستخدمة في النسخة الإلكترونية من المستندات الحكومية. وقد ساعد هذا “ 
النوع من النصوص بصورة كبيرة في جمع عدد هائل من المادة اللغوية 
للذخيرة؛ cus‏ لم تكن هناك dala‏ لإضاعة وقت ت كبير في الحصول على 
حقوق النشرء بالإضافة إلى عدم الحاجة إلى تدقيق تلك النصوص من حيث 
التحويل الخاطئ للكلمات» وغير ذلك من المشكلات التي توجد في الأشكال 
الأخرى من النصوصء بالإضافة إلى إمكانية جمع أنواع عديدة مسن 
النصوص بما يحقق تنوع المادة اللغوية. وإذا كانت المستندات الحكومية 
الإلكترونية بها إشارة إلى مصدر المستندء فيمكن تصنيفها مباشرة حسب نوع 
وسيط النشر الخاص بها. Ld‏ النصوص التي لا تحتوي تلك المعلومات فلا 
ترج تحت أي تصنيف. أما الدوريات فتنقسم إلى جرائدء ومجلات så aale‏ 
. ومجلات عامة» وتنقسم الكتب إلى كتب تعليمية» وكتب مساعدة» ومؤلفات 
علميةء ومؤلفات عامة. Ld‏ الدوريات فتضم الجرائد الدورية الصينية وغير 
الدوريةء بالإضافة إلى الجرائد اليومية للأطفال» ونشرات مركز الحاسب 
بمعهد الدراسات المركزي بتايوان. وتضم المجلات العامة مجلات الشئون 
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العامة ica gall‏ والسياحة» ومجلات الشعرء ومجلات السينما؛ Lal‏ المجلات 
العلمية فتضم معلومات مختصرة عن الأطباء» والمجلات الصادرة عن وكالة 
القوميات. أما الكتب التعليمية فتضم كتب الأدب واللغة في المرحلة الابتدائيةء 
والحوارات المستخدمة باللغة الصينية الصادرة عن مركز المعلمين بتايوان؛ 
Ld‏ الكتب المساعدة فقد جَمّعت في إطارها التقارير الفنية الصادرة عن فريق 
بناء ذخيرة المفرزدات الصينية. أما المؤلفات العلمية فتشمل الأبحاث العلمية. 
وتشمل الكتب العامة مسودات الخطب السياسية عن المبادئ AA‏ 
للديمقراطيةء والمؤلفات الشهيرة في علم النفس الذي تم تمويلها من صندوق 
خونغ تيان تشوان وما إلى ذلك. والمادة اللغوية الشفهية مصدرها .الحوارات 
اليومية لطلاب الصين الأم المغتربين في أميركا. 

(一‏ أسلوب الكتابة 

تتقسم النصوص من حيث أسلوب الكتابة إلى الأسلوب السرديء 
والأسلوب الجدليء والأسلوب التفسيريء والأسلوب الوصفي. فالأسلوب 
السردي هو الذي يتناول وصف الإنسان والأشياء من حيبث الخصائص 
والحركة والتغيرات التي تحدث؛ فالمقالات التي تتناول سرذا Úle‏ أو تلك 
التي تقدم My gh‏ معلوماتية تم إدراجها تحت تصنيف الأسلوب السردي. وقد 
كانت النصوص السردية هي أكثر الأساليب المستخدمة من بين ما تم جمعه 
من نصوص الذخيرة. أما النصوص الجدلية فهي تلك التي تغرض رأي 
الكاتب الشخصي وتسعى إلى الحصول على تأييد الآخرين وإقناعهم بوجهة 
نظر معينة. والأسلوب العلمي وظيفته الأساسية هي تحليل الظواهر المترتبة 
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على حدث معين» أو إظهار الحقائق العلميةء الأمر الذي يمد المتلقي 
بمعلومات أو حقائق عن شيء معين. ولذلك فإن النصوص التي تتناول 
وظائف وطبيعة الأشياء من وجهة نظر موضوعية تنتمي إلى الأسلوب 
العلمي. أما الأسلوب الوصفي فذلك الذي يتناول الأشخاصء والحيواناتء 
والأشياء أو الأماكن بالوصف المتعمق؛ ومن الممكن أن يحتوي ذلك الأسلوب 
تشبيهات واستعارات وكنايات وغير ذلك من الأساليب البلاغية؛ حيث يستعين 
بها الكتاب في الوصف العميق لموضوع ما وإظهار خصائصه بصورة 
دقيقة. النصوص الوصفية تحتوي Cad‏ ما يتعلق بالمشاعر الداخلية للكاتب 
مثل اليوميات التي تصف المشاهد والكائنات. 

و) الشكل اللغوي 

الشكل og gill‏ يعني الأسلوب الذي تظهر عليه لغة النصوص في 
الذخيرة» Cum‏ تنقسم مادة الذخيرة إلى Aad‏ تحريرية ولغة Aged oh‏ ومن 
المعروف أن هذين الشكلين يختلفان بصورة كبيرة. ويمكننا تقسيم اللغة من 
حيث الشكل إلى لغة مكتوبة (written)‏ ولغة مكتوبة لكي (written-to- ie‏ 
cbe-read)‏ ولغة مكتوبة لكي يتم التحدث بها ‘(written-to-be spoken)‏ 
ولغة منطوة 44 «spoken‏ ولغة منطوقة لكي .(spoken-to-be-written) CES‏ 
أما اللغة المكتوبة فتشير إلى اللغة التحريرية العامة» ويندرج تحتها غالبية 
النصوص التي تم جمعها في الذخيرة» أما اللغة المكتوبة لكي يتم التحدث بها 
فتشمل النصوص المسرحية والحوارات الإذاعية التي CESS‏ لكي ي ستخدمها 
شخص ما في ظروف معينة؛ ولذلك فهي تختلف إلى Se Sa‏ كبير مع اللغة 
الشفهية التي تسستخدم في الحياة الواقعية؛ أما اللغة المنطوقة فتشير إلى 
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الحوارات الشفهية العامةء ويعتبر جمع هذا النوع من المادة اللغوية وتنظيمها 
صعب إلى درجة كبيرة» لذلك فإن نسبة تمثيله داخل الذخيرة جاءت ALE‏ 

Ld‏ اللغة المنطوقة لكي CR‏ فتشير إلى ذلك النوع من النصوص الذي 
يتم تدوينه داخل المؤتمرات؛ ونظر! إلى وجود فرصة للترتيب والمعالجةء 
فيمكن حذف العديد من العناصر اللغوية الزائدة التي تمشل طبيعة اللغة 
الشفهية داخل وقائع المؤتمر؛ وذلك من أجل أن يتم التمييز بينها وبين كل من 
اللغة الشفهية أو اللغة التحريرية الواقعية. 
*- نسب النصوص المكونة لذخيرة معهد الدراسات المركزي بتايوان 

تم توزيع المادة في ذخيرة معهد الدراسات المركزي بتايوان بصورة 

رئيسة حسب الموضوعات» وقد وصلت نسبة تمثيل تلك الموضوعات داخل 

. الذخيرة حتى الآن إلى ما يلي: 

96١٠١١ الفلسفة:‎ 

العلوم: %1۰ 

BVO الاجتماع:‎ 

%٥ الفنون:‎ 

%۲١ الحياة:‎ 

WY الأدب:‎ 

وقد تم اختيار المادة اللغوية وفقا لتلك النسب من المصادر التالية مع 
اعتبار أن وحدة العد هي الرموز الصينية: 
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(i‏ الصّحُف 

الصحف الصينية: ٠ ,ol‏ رمزاء الصحف الحرة: YeAYYE‏ 
رمزاء صحف الأطفال: ۲۹۹۲٠۰‏ رمزاء نشرات ومراسلات مركز الحاسب 
التابع لمعهد الدراسات المركزي بتايوان: VOVVEN‏ رمزا. 

ب) المجلات العامة 

مجلات الشئون العامة: 11۹۹٤‏ رمزاء مجلات الموضة: ۲۹۸٤۰‏ 
رمزاء النشرات السياحية: ١78477‏ رمزاء مجلات السينما العالمية NEATA‏ 
رمزا. 

ج) الدوريات العلمية 

الدوريات الصادرة عن مركز القوميات التابع لمعهد الدراسات 
المركزي: ١١775‏ رمزاء نشرات الأطباء بمعهد الدراسات المركزي: 


vao ٠ ۷‏ رمزا. 
د) الكتب التعليمية 


المؤلفات الدراسية الصادرة عن الحكومة لمرحلة التعليم الابتدائي» التي 
تقع في VY‏ مجلدا: ۸۸۷٤٤‏ رمزا. 


ه) الكتب المساعدة 

التقرير الفني لفريق بناء ذخيرة المفردات التابع لمركز المعلومات 
بمعهد الدراسات المركزي: Kja YAEY‏ 

و) المؤلفات العلميةء والأبحاث 


۹ رمزا. 
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ز) النصوص التي لا يمكن إدراجها تحت تصنيفات سابقة 


۰۱ رمز. 

ح) الكتب 

عدد ثمانية مجلدات لعلم النفس صادرة عن جمعية صندوق.خونغ تيان 
تشوان. 


طا( الوسائط المرئية والمسموعة 

المقالات الصادرة عن الدوائر العلمية التايوانية: ٠٠٠۹٠١‏ رمزا. 

ي) حوارات ومقالات صحفية: 

۱ رمز ا. 
-٤‏ تمييز حدود الكلمات داخل الذخيرة وترميزها من حيث التصنيف النحوي 

.اتبعت ذخيرة معهد الدراسات المركزي بتايوان أسلوب التمييز الآلسي 
لكلمات الذخيرة. وقد كانت عملية التقسيم تتم اعتمادًا على التسعين ألف Bale‏ 
لغوية التي تمثل محتويات المعجم الصادر عن معهد الدراسات المركزي 
بتايوان. Ld‏ المفردات التي لم ترد في المعجم» فكان التعامل معها يتم 
باعتبارها رموز! ويتم تمييزها على أساس الرمز وليس الكلمة. وبعد ذلك يتم 
الجمع بين الرموز التي لها قوة توليد كلمات عن طريق اللواحق والرموز 
المعبرة عن الأرقام في إطار كلمات AS yo‏ وعند تمييز الكلمات» كانت 
المبادئ العامة للتمييز كما يلي: 
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(i‏ الوحدات اللغوية التي لها استقلال من حيث المعنى؛ يتم اعتبارها 
وحدة يتم تمييز الكلمات على أساسها. 

ب) يتم تمييز الوحدات اللغوية الشائعة وفقا لما هو متعارف عليه في 

ج) المعنى والتركيب يتم النظر إليهما bee‏ باعتبارهما أساس تمييز 
حدود الكلمات. 

د) يتم التمييز على أساس العلامات التي لها مغزى واضح في الفصل 
بين حدود الكلمات. | 

(a‏ الوحدات اللغوية المتفقة من حيث الشكل والمختلفة مسن حيث 
التركيب يتم تمييزها على أساس السياق اللغوى. 

و) إذا كان هناك تضارب في مبادئ التمييز يتم اللجوء إلى اتفاقية 
التوحيد المعياري الصادرة عن جمعية اللغويات الحاسوبية. 


وبناءً على ما سبق تم تمييز حدود الكلمات في ذخيرة معهد الدراسات 


المركزي في col gi‏ وقد تم اللجوء إلى منهجية البدء بالحاسب» ثم المراجعة 
من خلال العنصر البشري في عمل الترميز اللغوي لمحتوى الذخيرة 
بالكامل» وقد تم استخدام عدد ستة وأربعين رمز في عملية الترميز النحوي 
للمفردات. 


وبالإضافة إلى عملية ترميز أقسام الكلام» فقد تم عمل ترميز آخر 


ليعض العناصر النحوية الخاصة بالذخيرة» وقد تم استخدام ثماني علامات 
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لهذا الغرضء وقد صمت هذه العلامات خصيصى من أجل الاستخدام في 
رصد بعض الظواهر اللغوية في اللغة الصينية؛ مثل ظاهرة الفعل والمكملء 
والأفعال المتعديةء والوحدات اللغوية التي تتخلل وحدات متعارف عليها 
سابقاء والتراكيب الاسمية والكلمات الدخيلة. 

علاوة على ذلك؛ فقد تم إضافة خاصية الاستعلام داخل الذخيرة وفقا 
للكلمات المفتاحية؛ حيث يمكن استخراج السياقات التي تحتوي كلمات محددة 
من بين محتوى الذخيرة: بالإضافة إلى تقديم المعلومات الخاصة بتمييز حدود 
الكلمات وترميزها. 

ويُظهر الجدولان ٠١-۲‏ و1-١1‏ نتيجتين للاستعلام بكلمة مفتاحية() 
داخل ذخيرة معهد الدراسات المركزي بتايوان إحداهما تعرض مجموعة 
سياقات وردت فيها الكلمة المفتاحية دون إضافة معلومات عن التصنيف 
النحوي للكلمات» .والنتيجة الثانية السياقات نفسها بعد تمييز حدود الكلمات» 
ومُرفقا مع كل كلمة الترميز الخاص بتصنيفها O sas‏ 


)١(‏ الكلمة المفتاحية التي تم الاستعلام عن سياقاتها هي كلمة "تاها" eS‏ وقد تمت 
كتابة هذه الكلمة بالبنط السميك ووّضع أسفلها خط في النص المترجم لتسهيل عملية 
تمييزها على القارئ العربي.(المترجم) 

)1( الغرض التواصلي من عرض الجدولين ٠١-۲‏ و7-١١‏ في النص الأصلي هو 
إظهار نتيجة الاستعلام بكلمة مفتاحية داخل الذخيرة؛ مرة عندما تكون النتيجة دون 
ترميزء ومرة ثانية عندما تكون النتيجة مُرمَّزة. ويلاحظ أن النتيجة المرمزة لم تشمل 
جميع الكلمات في الاستعلام الأول» بل اقتصرت على الكلمات المُخّنة في برمجية 
الترميز. ونوجه عناية القارئ إلى أن الكتاب الأصلي ضمح lià ya‏ به مجموعة العلامات 
المستخدمة في ترميز اللغة الصينية ومعناهاء وقد قمنا بترجمة ما تشير إليه تلك 
العلامات باللغة العربية.(المترجم) 
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جدول “一 人)‏ 1): مواد لغوية من تسعة عشر مقطغا 
من نصوص مختلفة 
既然 你 非 和 我 比 剑 不 可 , PE , 不 过 ，‏ ": 
随身 带 着 主君 的‏ 


且 又 影响 家 庭 生活 甚 巨 “， Ps ee 
ZARB. HR, 不 妨 以 
用 过 一 次 没什么 感觉 了 下 次 再 去 买 一 副 试 试 只 是 不 便宜 耶 
明天 还 要 考 动力 学 我 要 去 。 
对 非 物理 学 者 而 言 你 可 试 试 Close Sutton 和 Marten 
的 此 书包 含 了 许多 
的 绝世 刀 法 。 学 了 两 年 , 懒 残 大 师 有 意 试 试 他 的 功力 
便 把 他 叫 来 禅 室 ， 其 时 外 面 


还 在 纽约 的 话 , ”我 们 就 去 买 双 冰 刀 鞋 来 试 试 
你 就 说 在 屏 东 溜 冰 的 故事 , 穿 好 那 种 


带动 人 际 之 间 的 热 络 气氛 , 你 是 否 也 想 试 试 , 以 镖 会 友 一 番 
? 快 加 入 飞镖 行列 吧 ! 


身材 还 过 得 去 ，‏ , لاق 

不 妨 去 试 试 运气 。 e 
相信 的 迷信 疗法 ， 她 也 抱 着 一 线 希 望 去 试 

两 年 来 她 为 了 能 传 宁 接 代 做 个 直 正 的 

及 钢琴 等 自动 演奏 乐器 ， 游客 也 可 试 试 身子 ， pei ， 
开演 奏 会 的 

了 9 你 走 吧 ! 狐狸 说 : عاد‎ ! 
老虎 只 是 试 试 你 的 胆子 大 不 大 而 已 , 没 想到 你 的 胆子 , 

-真是 一 举 两 得 呀 ! 各 位 有 空 时 不 防 试 试 我 的 消暑 妙 方 , 不 
然 , 你 总 不 能 一 箭 

大 家 不 妨 试 试 身手 _， 
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看 能 不 能 徒手 抓 到 它们 。 图 说 :1 


是 不 喝酒 的 , 看 看 杯子 这 么 可 爱 , 也 想 试 试 。 " 格林 哥 说 :" 
傻瓜 ,这 不 是 杯子 ， 


中 国人 上 了 床 ”， 功夫 特别 好 ”， 不 信 可 以 试 试 。 “" 
她 们 信以为真 , 极 感 趣 地 打量 着 

一 句 :" 不 论 你 同 不 同意 , 今夜 我 要 试 试 。"" BH! 中 国人 ! 
难道 你 们 连 做 爱 都 


BARTS 开始 剥 身上 衣裳 : 
你 看 我 试 试 夹 只 合适 不 。 TT 



















一 些 创 意 ， 不 是 一 举 数 得 吗 
大 家 不 妨 试 试 。 大 台北 经 济 证 券 ， 新 台币 汇率 昨日 再 ， 
他 刚 学 会 开车 回国 后 
喜欢 在 台湾 试 试 他 的 开车 技术 。 没 有 开 两 条 街 ， 就 大 叫 


جدول (in Y)‏ بعض مفردات المواد اللغوية السابقة 
faya‏ 5 نحويًا 








不 可 D), £ (Nh) 也 D) 乐于 (VL) 试 试 (VE) 你 (MD 的 
(De) 本 事 (Na), 不 过 (Cbb) 


E (VH), 所 以 (Cbb) 没有 (D) 出 去 (VA) 试 试 (VF) A 
(VC) RFN), # D) 有 (V-2) 


再 (D) 去 (D) X (VC) 一 (Neu) Bil (ND 试 试 (VE) RÆ D) 
不 (D) 便宜 CVH) FB (T) 


学 者 (Na) 而 (Cbb) 言 你 (Nh) 可 (D) 试 试 (VF)Close 
(FW) 和 (Caa) (FW)Sutton 


年 (Nf), 懒 残 (Nb) 大 师 (Na) 有 意 (VL) RA (VF) 他 (Nh) 


的 (De) 功力 (Na), Œ (D) $E (P) 


E (VC) 双 (NA) 冰刀 (Na) BE (Na) 来 D) RR (VF), 你 - 
(Nh) 就 D) 说 (VE) 在 (P) BEAR (Ne) 


你 (Nh) 是 否 (D) 也 (D) 想 (VE) 试 试 (VF), 以 (P) (Na) 
(Neu)- 会 (VC) (Na) 


还 (Dfa) 过 得 去 (VH), FH (D) 去 (D) Wik (VF) 运气 
(Na)。 假 设 (VE) 你 (Nh) 很 (Dfa) 


着 (Di) 一 (Neu) 线 (Na) 希望 (Na) 去 D) 试 试 (VE), 两 
(Neu) 年 (Nf) 来 (Ng) 她 (Nh) 为 (P) 


乐器 (Na), 游客 (Na) 也 (D) 可 (D) 试 试 (VE) 身子 (Na), 
弹 奏 (VC) 乐曲 (Na) 


: 2 (Na) 啊 (T)! 老虎 (Na) 只 是 (D) 试 试 (VF) 你 (Nh) 的 
(De) 胆子 (Na) X (VH) 不 (D) 


位 (Nf) EF (VH) 时 (Ng) 不 妨 (D) 试 试 (VF) 我 (Nh) 的 
(De) 消暑 (VA) #7 (Na), 


& (Na) F (Na), 大 家 (Nh) 不 妨 (D) 试 试 (VF) 4F (Na), 
看 (VE) 能 不 能 (D) 徒手 )0( 


这 么 (D) 可 爱 (VH), 也 (D) 想 (VE) 试 试 (VF) 。 " 格林 哥 
(Nb) 说 (VE):" 俊 瓜 (Na) 


好 (VD, 不 (D) fÈ (VK) 可 以 (D) RIA (VF) 。" 她 们 (Nh) 
信以为真 (VH)， 


今夜 (Nd) 我 (Nh) 要 (D) 试 试 (VF) . "" BO! 中 国人 
(Na)! 难道 (D) 


ARS (Na): 你 (Nh) 看 (VE) 我 (Nh) 试 试 (W) XX (Na) 
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合适 (VHD 不 (T)。 直 到 (P) 
I (T)? 大 家 (Nh) 不 妨 (D) 试 试 (VD 。 大 台北 (Ne) BH 

l (Na) 证 券 (Na) 
后 (Ng), 喜欢 (VK) 在 (P) 台湾 (Ne) 试 试 (VF) 他 (Nh) 的 
(De) 开 (VC) 车 (Na) 技术 (Na) 







ثالكًا: الذخيرة التزامنية لخمس blia‏ صينية 

الذخيرة التزامنية لخمس مناطق صينية يُطلق عليها اختصارا ذخيرة 
-LIVAC‏ والتسمية الكاملة لها هي: Linguistic Variety in Chinese‏ 
Communities‏ وقد تم إطلاق هذه الذخيرة من قبل جامعة المدينة بهونج كونج. 

وقد اتبعت هذه الذخيرة أسلوب جمع المادة اللغوية من خلال خطوات 
تزامنية» والغرض من ذلك اختيار مادة لغوية ABs‏ لكل منطقة وبحجم 
مناسب» بغرض التوصل لوصف الاستخدام اللغوي الواقعي للغة الصينية في 
عدة مناطق على مستوى الصين» بالإضافة إلى تدعيم النظريات المتعلقة 
باللغة الصينية بالشرح. | 

ويقدم المرجع رقم M7)‏ شرحا تفصيليًا لهذه الذخيرة من dya‏ عمليات 
البحث والتطوير 
١‏ - خصائص ذخيرة ليفاك LIVAC‏ 

تظهر خصائص الذخيرة المذكورة من خلال النقطتين التاليتين: 

أ) تعتبر عملا غير مسبوق على مدى التاريخ من حيث جمع مادة 
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هذه المناطق الخمس بالإضافة إلى الصين الأم كلا من هونج كونج» 
وتايوان» وسنغافورة؛ ومكاو. 
ب) في أثناء تصميم الذخيرة كان هناك مثابرة وإصرار على جمع 
المادة اللغوية خلال فترة زمنية طويلة Ña‏ مع مراعاة مستوى 
التزامن في جمع النصوص على مستوى المناطق الخمس. 
إن جوهر ale‏ اللغة التزامني هو دراسة اللغة من خلال قضية 
افتراضية عبر فترة زمنية محددة؛ بغرض وصف حالة اللغة في تلك الفترة» 
مع عدم الالتفات إلى الوضع السابق والمستقبلي لتلك الحالة. 
إن اللغة كائن حي» يتغير آلاف المرات مع مرور الزمنء وأهم مظاهر 
هذه الحالة من التغير هو ظهور المفردات الحديثة وانتشارهاء أو تغير معنى 
المفردات الموجودة بالفعل أو اختفائها. 
ولذلك فإن جمع المادة اللغوية تحت شروط معينة من الأفضل أن يكون 
تحت مظلة فترة زمنية معينة بدرجة أو أخرىء الأمر الذي يسمح بعمل 
مراقبة ومشاهدة لظروف انتشار وتغير عدد من المفردات» بما في ذلك 
احتمال خضوع تلك المفردات لتأثير البيئات المختلفة. ولذلك فإن ذخيرة ليفاك 
قد حددت المرحلة الأولى لجمع المادة اللغوية بثلاث سنوات. 
وحتى يمكن الحصول على مواد لغوية مناسبةء تم توزيع المادة اللغوية 
الصحفية التي جُمعت للذخيرة على المناطق الخمس؛ بحيث يتم الحصول 
عليها من صحف تلك المناطق من منشورات يوم واحد مع مراعاة أن تكون 
الموضوعات متشابهة قدر الإمكان. 
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والمقصود بالتزامن في ذخيرة ليفاك هو نوع من التزامن أكثر صرامة 
من ذلك المتعارف عليه في مفهوم التزامن المستخدم في علم اللغة التزامني؛ 
بمعنى أن يتم عمل مراقبة زمنية لمحتويات الذخيرة في خلال الفترة الزمنية 
التي يتم التعامل معهاء والغرض من ذلك هو الرغبة في أن تكون هناك 
فرصة لمراقبة ظواهر النمو أو الاضمحلال لبعض المفردات بصورة كاملة» 
بالإضافة إلى التعرف على مصادر تلك المفردات ومغزاها. 
؟ - نطاق ذخيرة Mis‏ وطرق جمع المواد اللغوية 

بدأت الإرهاصات الأولى لفكرة ذخيرة ليفاك منذ عام ١۱۹۹ء‏ ومع 
حلول عام ۱۹۹۳ بدأ التخطيط الفعلي لها بعد الحصول على التمويل اللازم 
لبنائها. Eá,‏ الخطوات التنفيذية لذلك في جمع المادة اللغوية عن طريق 
اختيار مواد صحفية صادرة في يوم واحد في المناطق اللغوية الخمس: هونج 
كونج» ومكاوء وشنغهاي» وسنغافورة» وتايوان» على أن يتم جمع المادة مرة 
كل أربعة أيام. تضم المادة المقالات الافتتاحية» وجميع الأخبار والمقالات في 
الطبعة الأولى» والكتابات والمناقشات الخاصة بالشئون الدولية والمحلية» 
على أن يكون J‏ ما يتم جمعه كل يوم في حدود عشرين ألف رمز 
صيني. وفي العامين من شهر يوليو VAIO‏ حتى يونيو ۱۹۹۷ وصل حجم 
المادة التي جُمعت لذخيرة ليفاك على choy WAV AA‏ و844515 


رمزا. 
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*- التمييز الآلي للكلمات وبناء الذخيرة اللغوية 

الهدف الأساس من بناء ذخيرة ليفاك هو عمل تحليل للمفردات؛ لذلك . 
فقد كانت ed‏ الأولى في عملية بناء الذخيرة هي عمل تمييز آلي لحدود 
الكلمات Jala‏ الذخيرةء وقد استخدمت ليفاك منهجية أقصى طول aad‏ 
الرموز في تمييز حدود الكلمات الصينية؛ Cum‏ يقوم الحاسب بعمل التقسيم 
الآلي للمفردات في البداية على أساسهاء بالإضافة إلى إضافة بعض العلامات 
بصورة آلية إلى عدد من الكلمات الخاصة (مثل cold YI‏ وأسماء الأشخاص» 
وأسماء الأماكن) وذلك لتسهيل عملية الاستخدام والتحليل فيما بعد. وقد 
وصلت دقة التمييز إلى ما يزيد عن نسبة Wo‏ وبعد ذلك يتم عمل مراجعة 
باستخدام العنصر البشري لنتيجة التمييزء ويكون ذلك من خلال خطوتين 
رئيستين: أولاً: عمل فحص لجميع النصوص التي تم عمل تمييز لكلماتها 
وتصويبهاء ثم استخراج قائمة تضم جميع المفردات A Sal‏ للذخيرة بصورة 
آلية؛ ثانيًا: فحص القائمة ومراجعتها لاكتشاف ما إذا كانت هناك مفردات قد 
تم تمييزها بصورة غير Apulia‏ وفي النهاية يتم إدراج هذه المفردات في 
معجم ليفاك؛ وذلك من أجل رفع مستوى دقة البرنامج الذي يقوم بتمييز 
المفردات في ذخيرة ليفاك. 

Ll‏ المقالات التي يقوم بمراجعتها العنصر البشريء فيتم عمل قراءة 
آلية لها بعد ذلك باستخدام الحاسب الآلي» وتستخدم المعلومات التي يتم 
الحصول عليها في بناء ذخيرة ليفاك. وبالإضافة إلى تسجيل جميع المفرداتء 
يتم تسجيل المنطقة التي وردت منهاء وتاريخ النشرء بالإضافة إلى المعلومات 
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الأخرى التي لها فائدة؛ مثل النطق الصيني القياسيء والنطق المحلي لها. 
ومن أجل تسهيل عملية الاستعلام داخل المواد التي تم جمعهاء تم تدوين 
جميع محتويات النصوص وعناوينها داخل الذخيرة اللغوية. وبالإضافة إلى 
ذلك» فقد تم تسجيل المكانء والتاريخ؛ والفقرة والجملة وموقع ظهور الكلمة 
داخل الجملة وما إلى ذلك؛ وذلك من أجل زيادة سرعة البحث والتنقيب عن 
البيانات داخل الذخيرة بالإضافة إلى تصميم برمجية استعلام سريعة وشاملة 
عن نصوص الذخيرة. 

وقد قدمت برمجية الاستعلام بذخيرة ليفاك إمكانات الاستعلام التالية: 

(Í‏ الاستعلام بالكلمة 

حيث تكون نتيجة الاستعلام إظهار خصائص الكلمة بما في ذلك النطق 
القياسي ونطقها الدارج» بالإضافة إلى تقديم شرح لها باللغة الإنجليزيةء ممع 
إظهار المعلومات الإحصائية الخاصة بها مثل عدد مرات ظهور هذه المفردة 
في كل منطقة لغوية من مناطق الذخيرة الخمس؛ وإدراج الكلمات المقابلة؛ 
بمعنى إظهار مقابلات الكلمة في كل منطقة من مناطق الذخيرة. 

ب) الاستعلام بالنص 

السماح للمستخدم بالاستعلام باستخدام كلمةء أو جزء من AUS‏ أو نوع 
من الأنواع النحوية للكلماتء أو النطق الصيني القياسي أو النطق الدارج؛ 
بحيث تقترن أدوات الاستعلام تلك بمجموعة أخرى من الشروط Ab yall‏ 
وتكون نتيجة الاستعلام استخراج الجمل التي تنطبق عليها شروط الاستعلام: . 
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ويمكن الاستعلام Giy‏ لأربعة jules‏ هي: استعراض الكلمة المطلوب البحث 
عنها ومعها الكلمات المرافقة قبلها وبعدها بعدد معين من الكلمات» 
واستعراض التعبيرات اللغوية التي تحتوي كلمات معينةء واستعراض الجمل 
التي تحتوي كلمات معينةء بالإضافة إلى استعراض عناوين النصوص التي 
رابعًا: الذخيرة اللغوية لدراسات اللغة الصينية الحديثة 

تم اعتماد الذخيرة اللغوية لدراسات اللغة الصينية الحديثة باعتبارها 
المشروع العلمئ لقطاع العلوم الاجتماعية والإنسانية في الخطة الخمسية 
الثامنة لمجلس الدولة الصيني» وفي الوقت ذاته تم اعتمادها باعتبارها 
المشروع العلمي الرئيس لجامعة اللغات والثقافة في إطار الخطة الخمسية 
الثامنة للحكومة الصينية. 

وكان الهدف البحثي من ذخيرة دراسات اللغة الصينية الحديثة هو 
تقديم قاعدة بحث لغوية أساسية ذات نطاق واسع يستخدمها العاملون في حقل 
معالجة المعلومات باللغة الصينيةء وتعليم اللغة الصينية» والعاملون في Jia‏ 
الدراسات اللغوية الصينية؛ وذلك من أجل دفع الدراسات اللغوية القائمة على 
اللغة الصينية إلى مزيد من التعمق!145,. : 
-١‏ اختيار المادة اللغوية وجمع العينات 


تم تقسيم العمل في الذخيرة اللغوية للغة الصينية الحديثة إلى مستويين» 
المستوى الأول هو جمع ذخيرة لغوية خام يصل حجمها إلى ٠١‏ مليون رمز 
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صيني» المستوى الثاني هو جمع ذخيرة لغوية سبق معالجتها تصل إلى ۲ 
مليون رمز صينيء أي ذخيرة لغوية تم عمل تمييز لحدود كلماتها وعمل 
ترميز لأنواع الكلمات بها. 

وقد كان هناك مستويان لجمع المادة اللغوية للذخيرة. 

المستوى الأول يتم عن طريق انتقاء مادة لغوية خام تصل إلى Ye‏ 
مليون رمز صيني من بين مادة صل حجمها إلى 5٠‏ مليون رمز. 

وقد كانت قواعد اختيار العينات تتم على أساس الوضع في الاعتبار 
مدى اكتمال النص وطوله وغير ذلك من الاعتبارات»ء على سبيل المثال بعد 
النصوص التي يقل حجمها عن ألف «jay‏ وأيضًا النصوص غير المكتملة. 

وقد اشتملت المادة الأساسية التي تم اختيار العينات منهاء التي تصل 
إلى ٠١‏ مليون رمز على النصوص الإخبارية للصين في الفترة مسن عام 
151517 الى VAAN‏ يمل Gila Ve:‏ رهز CA ally‏ التشحفية لتشبعة 
الصين الجديدة شين خوا لعام ۱۹۹۳ بحجم عشرة ملايين وخمسمائة ألف 
رمزء والنصوص الكاملة لجريدة الشعب اليومية ١535 alal‏ بما يقرب من 
٠‏ مليون رمز. 

هذا بالإضافة إلى مختارات للكتب من مقتنيات المكتبات العامة الصينية 
. في تخصص الأدب» ومختارات من اللغة الشفهية تصل إلى ۲ مليون 
وخمسمائة ألف رمز تم إدخالها إلى الحاسب الآلي عن طريق العنصر البشري. 

وقد كانت القواعد التي اتبعّت في اختيار ذخيرة العشرين مليون رمز 
من بين الحجم الإجمالي لتلك الذخيرة كما يلي: 
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(جريدة الشعب اليومية) (عام ۹44 بالكامل) 1 رمز. 

(الأخبار الصينية) (۱۹۹۳-۱۹۹۲) ٠,٠٠٠,٠٠١‏ رمز. 

المؤلفات العلمية وغيرها ٠,٠٠٠,٠٠١‏ رمز. 

الأعمال الأدبية (عينات تم إدخالها يدويًا) ٠,٠٠٠,٠٠٠‏ رمز. 

(من بينها نصوص روائية تصل إلى On‏ ونصوص نثرية 
تصل إلى ٠١‏ ألف رمزء ونصوص في مجال الأدب التقريري تصل إلى 
٠‏ ألف رمز). 

مواد شفهية قياسية (عينات تم إدخالها (Ésa‏ مليون رمز. 

(من بينها نصوص مسرحية تصل إلى ٠٠١‏ ألف رمزء ومونولوجات 
تشمل مونولوجًا فرديّاء وخطبًاء وحوارات ثنائية» وقصصنا بما يصل إلى 
fee‏ ألف رمز). 

ومن الأرقام سالفة الذكر يمكننا ملاحظة أن المواد الصحفية في 
المستوى الأول قد وصلت إلى 9076» والمؤلفات العلمية وصلت إلى 
5 , والأعمال الأدبية إلى 901,5» والمواد الشفهية إلى Wo‏ 

أما المستوى الثاني فقد تم استبعاد الأخبار الصينية والمؤلفات العلمية 
منه؛ حيث تم انتقاؤه بشكل عشوائي وفقا لنسب معينة قد سبق الاتفاق عليها 
في حدود مليوني رمز صيني من مادة لغوية يصل إجمالي حجمها إلى عشرة 
ملايين ومائتين وخمسين ألف رمز. وقد تم التفكير في (جريدة الشعب 
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اليومية) باعتبارها جريدة عامة غنية بالمواد اللغوية من حيث تنوع 
الموضوعات» على عكس الجزء الباقي من المادة اللغوية» الذي يصل إلى ۷ 
ملايين وخمسمائة ألف رمزء التي تتميز بوحدة الموضوع والمضمون» 
بالإضافة إلى أن تلك الموضوعات يمثلها نسبة معينة في محتوى (جريدة 
الشعب اليومية). و تحديد نسب النصوصء تم مراعاة كلا من الموضوع 
والمضمون؛ dya‏ صنفت النصوص By‏ لهذين المعيارين. وعند التفكير في 
نسبة تمثيل كل نوع من النصوص داخل الذخيرة»ء تم الاهتمام بالجمع بين 
اكتمال النص ومبدأ النقطة المركزية التي تدور حولها موضوعات 
النصوص. على سبيل المثال» إذا تحدثنا عن الموضوع؛ فإن موضوعات 
السياسة» والاقتصادء والأدب يكون لهما نسبة تمثيل أعلى من التاريخ 
والجغرافيا والشئون العسكرية وغيرها من المجالات التي يكون التمثيل 
اللغوي لها ضعيفا إلى حد ما لأنها تبعد عن الموضوع المركزي الذي 
تتمحور حوله نصوص الذخيرة. أما إذا تحدثنا من ناحية المضمون فإن 
السرد والنقاش يكون التمثيل اللغوي لهما كبيرًا جداء أما الشرح والتطبيق 
فتكون النسبة على العكس من ذلك ضئيلة. وعلى ذلك تكون خطوات جمع 
العينات كما يلي: 

ely -١‏ قاعدة بيانات لخصائص النصوص: تضم خصائص 
النصوصء وعنوان النص» وعدد الرموز ALA a Sal‏ ومكان 
النشرء واسم الكتاب أو الجريدة» ودار النشرء بالإضافة إلى تاريخ 
النشرء وتصنيف og peta gall‏ وأسلوب الكتابة. 
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¥- تحديد طريقة توزيع المادة اللغوية. 

۳- الاختيار العشوائي للعينات. وللتعرف على نتيجة اختيار العينات . 
بالمرحلة الثانية انظر الجدول ١7-7‏ والجدولٍ ٠۳-۲‏ والجدول 
Ey‏ 


جدول Y)‏ -): : توزيع لكيه داخل المادة التحريرية 






























































ةه العدد (بالالف رمز) 
%\o‏ 

١808 Fe %1 اقتصاد‎ 

\ YY,e % YA,Ye أدب‎ 

AY yo %Y,0 ثقافة وت‎ 

As jo %Y,e حياة اجتماعية‎ 

14 YY %٦ علوم وتكنولوجيا‎ 

14 A % £ dal, ) 

جغرافيا وسياحة %5,0 ° Yé‏ 
تاريخ وآثار yy ¥,° % Yo‏ `" 

YY o 2%oY,e شئون عسكرية‎ 








جدول )1-1( توزيع الأساليب اللغوية داخل المادة التحريرية 
















































































| 1ش العدد a‏ رمز). 
رواية %~ 

نثر | 070 2 
| تقارير Os WYO‏ 
تقارير صحفية Je %o‏ 
مذكرات ٤ %Y‏ 
أبحاث علمية %۹ ۱۸ 
مؤلفات نقدية %14 YA‏ 
منتجات معرفية °,+% | ١‏ 
| كتالوجات %۱ Y‏ 
ملخصات %1 Y‏ 
نصوص وثائفية \ % 1 y‏ 
قضايا تجارية )% y‏ 
مراسلات °, + % ١‏ 
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جدول )1 Bs: Sda‏ الأساليب اللغوية Jäta‏ المادة الشفهية 
Ene |‏ 

| مونولوج فردي _ 
مؤلفات نقدية 


Yi = YA محاضرات وخطب‎ | 


Yo قصص‎ 









































وقد تم عمل تهيئة أولية للمادة اللغوية قبل معالجتها وذلك بالنسبة إلى 
المواد المندرجة في إطار المستوى الثاني. ففي البداية تم تنقية جميع 
النصوص» على سبيل المثال تنقية النصوص المسرحية من الأجزاء التي 
تخرج عن نطاق الحوارء هذا بالإضافة إلى حذف المعلومات المتعلقة 
بالطبعات في العينات الأخرى من النصوصء ثم إضافة علامات تخص كل 
sige‏ حيث كماد القسية وكا اتسيف p piny‏ 
-Y‏ معالجة الذخيرة 

إذا أردنا عمل ترميز للذخائر اللغوية الصينية فلا بد أن تكون البداية 
بتمييز حدود الكلمات داخل الذخيرة. حتى يمكن dea‏ عملية التقسيم ohai‏ 
بموثوقية علمية» وضمان أن تكون عملية التقسيم موحدة» فقد تم وضع معيار 
على مستوى عال من الدقة والوضوح» بالإضافة إلى إمكانية التطبيق Like‏ 
ففي البداية» تم الاستعانة بعدد مائتي ف رمز من E EE‏ ة 
للاستخدام الغوي من حيث الشمول والانتشارء وتم البحث عن الرموز التي 
کین Uy TL CLAS gene‏ الشطي بت عمل تل Chalet) oa ete‏ 
لتلك الكلمات المركبة من عدد من الرموزء بما في ذلك طريقة التركيب 
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الداخلي؛ (هل يمكن للمكونات الداخلة في التركيب أن RS‏ منفردة» ونوع 
العلاقة بين العناصر المكونة للكلمة» ووظيفة تلك المكونات» وهل يمكن 
للعناصر الداخلية أن تتوسعء وما إلى ذلك)ء والوظيفة العامة للكلمة» وطبيعة 
التركيب الدلالي» وتركيب الوحدات الصوتية» والعناصر الأسلوبية وغير ذلك 
من المجالات. وعلى هذا الأساس يتم التأكد من فاعلية المنهجية والنظرية 
المتبعة في عملية تمييز حدود الكلمات» إلى أن نصل في النهاية إلى تحديد 
قواعد تقسيم النصوص الصينية إلى كلمات. وتتضح القواعد aal‏ في تقسيم 
النصوص إلى كلمات من خلال الجوانب الثلاثة التالية: | 

-١‏ الكلمة لها حدود دلالية ونحوية. 

-١‏ الحدود التي يتم تقسيم الكلمات على أساسها ليست مطلقة. 

*- ينبغي مراعاة التمييز بين المستويات المختلفة للمادة اللغوية. وفي 

النهاية يتم التوصل إلى الحكم عما إذا كانت الوحدة اللغوية المفردة 
تدخل ضمن إطار كلمة مركبة أم أنها تمثل وحدة مستقلة بذاتهاء ‏ ' 

وعلى هذا الأساس» يتم عمل ترميز نحوي للكلمات المكونة للمسستوئ 
الثاني من ذخيرة دراسات اللغة الصينية الحديثة. وبعد الاطلاع على نتائج 
الدراسات في حقل اللسائيات الصيئيةء ونتائج الأبحاث المتعلقة بترميز 
الكلمات الصينية في Jia‏ اللغويات الحاسوبية الصينيةء تم الاستعانة بقاعدتين 
أساسيتين في عملية تحديد نوع الكلمات الصينيةء الأولى تحديد نوع الكلمة 
بصورة كاملة eb‏ على وظيفتها النحوية داخل الجملة. والثانية تحديد نوع 
الكلمة بشكل تقريبي من حيث درجة الدقة. 
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ومن أجل ذلك» تم استخدام نظام متعدد المستويات لتحديد نوع الكلمة 

على سبييل المثال» أول مستوى من مستويات ترميز الاسم هو استخدام 
الرمز tn”‏ ثم يتم تصنيف الاسم بعد ذلك إلى خمسة أنواع فرعية هي اسم 
العلم» والاسم العام» واسم الزمانء واسم المكان؛ واسم الموقع. 

وقد تم تصميم مجموعة من الرموز الخاصة لترميز عدد AO‏ نوعا من 
أنواع الكلمات الصينية. 

ومن أجل إتمام عملية ترميز المادة اللغوية استخدمت أدوات الترميز 
وتمييز الكلمات المتاحة في نظام CCID‏ وبعد انتهاء الترميز الآلي» تم عمل 
مراجعة بالمجهود البشري لنتيجة ترميز مليوني رمز صيني. ومن أجل تهيئة 
ذخيرة الدراسات الصينية الحديثة لخدمة الباحثين في حقل اللغويات الصينيةء 
تم تطوير واجهة تطبيقية بها إمكانات بناء ذخيرة» واستعلام» وإحصاء؛ وما 
إلى ذلك. 

باستخدام المستوى الأول من الذخيرة يمكن عمل استعلام عن سلاسل . 
الرموز الواردة في الذخيرة» وباستخدام المستوى الثاني من الذخيرة يمكن 
البحث باستخدام الكلمة أو نوع الكلمة أو المعلومات الإحصائيةء على سبيل 
المثال الاستعلام عن الجمل التي تحتوي نوعًا معينا من الكلماتء ويمكن ‏ 
Lal‏ الاستعلام عن نوع معين من التعبيرات اللغويةء بالإضافة إلى عرض 
النتيجة بأكثر من صيغة. 


179 


خامسا: الذخيرة اللغوية الصينية ذات المعالجة الدقيقة 

الذخيرة اللغوية الصينية المُعَالجة بدقة هي مشروع مركزي تم تمويله 
من الحكومة الصينية في مجال العلوم الطبيعية؛ وعنوانه الفرعي هو 
'نظريات البحث في الذخائر اللغوية ومنهجياته cA gil g‏ والهدف من هذا 
العنوان الفرعي هو إنشاء سلسلة من الذخائر اللغوية الصينية التي تمت . 
معالجتها جيداء والهدف من هذه السلسلة من الذخائر هو التوصل إلى إصدار 
عدة مؤلفات تحمل العناوين الآتية: (توحيد معياري لطرق تمييز الكلمات في 
ذخائر اللغة الصينية الحديثة)ء و(توحيد معياري لترميز الكلمات في اللغة 
الصينية الحديثة)» و(مبادئ اختيار المادة اللغوية وتوزيعها Salo‏ الذخيرة). 
وفي النهاية» تم الحصول على ذخيرة متوازنة مكونة من مليوني رمز صيني 
Y) f‏ تشمل علامات الترقيم)ء وتم إجراء عمليات تمييز لحدود الكلمات بداخلهاء 

وعمل ترميز لأنواع الكلمات وبعض المعلومات النحوية» هذا بالإضافة إلى 

ذخيرة خام مُعتمدة يصل حجمها إلى ٠٠١‏ مليون رمز صيني. 

والنتيجة التي حققتها هذه الذخيرة يمكن أن تكون واجهة تطبيقية يُعْتَمَد 
عليها وتتمتع بموثوقية في الدراسات المتعلقة بالنحو والصرف في اللغة الصينية 
الحديثةء ومن ثم يكون لها مغزى مهمّ في الدراسات العلمية القائمة على تعليم 
اللغة الصينية» واللسانيات الصينيةء ومعالجة المعلومات باللغة الصينية. 


١‏ - اختيار المادة اللغوية للذخيرة 
|( المبادئ المُتَبَعة في اختيار المادة اللغوية 


تم الالتزام بالمبادئ التالية فى أثناء اختيار المادة اللغوية 
بم ادوم في 2 
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أن تكون المادة التي يتم اختيارها تنتمي إلى فترة تسعينيات القرن 
العشرين (مع eja‏ صغير في فترة الثمانينيات) بحيث يمكنها أن تعكس 
ملامح اللغة الصينية المعاصرة. 

أن تكون وحدة اختيار المادة اللغوية هي النصوص الكاملة؛ وذلك من 
أجل الحفاظ على معلومات النص كاملة. 

أن يكون المعيار الأساسي في جمع المادة هو النصوص موزعة على 
الأساليب اللغوية المختلفةء والمعيار الفرعي هو التوزيع حسب المجالات؛ 
حيث إن الأسلوب اللغوي يسبق المجال. اللغوي من حيث الأهمية. 

أن تركز المادة اللغوية التي تم جمعها على المستوى التحريري» 
بالإضافة إلى المواد الشفهية التي يمكن تدوينها في كتب» مثل نصوص 
المسرح» والتسجيل الصوتي للحوارات» والتسجيل الصوتي للمحاضرات وما 
إلى ذلك. وقد تم تمثيل المواد اللغوية الأدبية بنسبة أكبرء حتى يمكن زيادة 
مقدار اللغة الشفهية ولغة الاستعمال اليومي بصورة مناسبة؛ وذلك من أجل 
. تجنب أن تتجه الذخيرة إلى الاقتصار على اللغة التحريرية البحتة. 

ألا تتضمن المواد اللغوية مطبوعات من مناطق هونج كونج» 
ومكاوء وتايوان. 

ب) تفاصيل توزيع المادة اللغوية 

تم تقسيم المادة اللغوية حسب الأسلوب اللغوي إلى أربعة أنواع من 
النصوص هي: نصوص أدبية» ونصوص صحفية» ونصوص علمية 
ونصوص تطبيقية» وقد وصل حجم تلك النصوص إلى مليوني رمز صيني. 
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وقد تم توزيع كل نوع من تلك النصوص LS‏ يلي: 


الأدب: 
(١‏ الروايات (ويشمل القصص العامة والقصص العاطفيةء وقصص 
E gab Shall‏ البوليسية): 


(Y‏ النثر (ويشمل نصوصا متفرقة» ومقالات قصيرة متنوعة وما إلى ذلك). 
(Y‏ المذكرات (وتشمل السير الذاتية). 

£( أدب التقارير. 

0( المسرحيات (وتشمل الحوارات» والخطب). 

الأخبار: 

)١‏ التقارير الإخبارية (وتشمل السياسةء والاققصادء والشئون 


العسكرية» والصناعة؛ cAcl jl;‏ والتجارة» والعلوم والتكنولوجيا: 
والرياضة وغير ذلك من المجالات). 


(Y‏ النقد الاجتماعي والتعليقات. 

(Y‏ الحياة الاجتماعية والترفيه (وتشمل السياحةء والطهوء والأزياء 
والغنون» والعادات وغيرها). 

المؤلفات العلمية (وتشمل العلوم الاجتماعية والإنسانيات). 


النصوص الوظيفية (بما في ذلك الإعلاناتء والإخطارات»: 


والمراسلات» والتقاريرء cd gnll g‏ ومذكرات sas lal‏ وكتالوجات المنتجات» 
وغير ذلك من المطبوعات غير الرسمية). 
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للاطلاع على التوزيع التفصيلي للمادة اللغوية انظر الجدولين ٠١-۲‏ 
ATY‏ 

جدول :)٠١-۲(‏ معلومات إحصائية عن توزيع المادة 
للغوية بالذخيرة الصينية ذات المعالجة الدقيقة 


: al a 
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؟ - نطاق تمييز الكلمات 

عند وضع حدود الكلمات الصينيةء تم مراعاة النقطتين التاليتين: 

أ- الاستقرار على منهجية وضع حدود الكلمات على أساس الأبحاث 
واسعة النطاق التي أجريت على تمييز الكلمات الصينية. 

-١‏ الاستفادة من النتائج السابقة في هذا المجالء؛ وعلى الأخص 
الاستعانة بنتائج الأبحاث في مجال اللغويات الحاسوبية واللغويات 
الصينيةء والسعي قدر الإمكان إلى التوافق مع المعايير الصينية 
القومية التي تم نشرها من قبل فيما يتعلق بهذا الأمر. ولكن مع 
مراعاة أن يكون لنظام التمييز الجديد سماته الخاصة. 

- عمل دراسة متخصصة عن مجموعة الرموز الخاصة التي تحمل 
Cad‏ لغويًا في عملية التمييز. وقد تمت deal ye‏ النتائج التي تصل 
إلى مليون وخمسمائة ألف رمز صيني من خلال العنصر البشري 
عن طريق سبعة طلاب للدراسات العليا؛ حيث تم رصد سبعمائة 
وعشر ألف رمز صيني من بين العدد الإجمالي للرموز لم يحدث 
لها تمييز بشكل igs‏ وقد تم عمل تحليل يدوي لهذه الوحدات 
اللغوية التي CLG‏ على الآلة. ومن نتيجة الأبحاث نكتشف أن عدم 
وضوح الحذوة Ato‏ بين الكلمات (Spi Gi ged‏ 
أساسًا في عدم وضوح الحدود بين الكلمات ثنائية وثلاثية المقطع 
في اللغة الصينيةء أما من ناحية الوظيفة النحوية فيتركز عدم 
الوضوح بشكل أساسي في التراكيب الاسمية والفعلية. 7 
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-T‏ اتباع منهجية تطبيق عمليات التمييز بالتوازي مع إجراء 
التصحيحات على النتائج» بغرض التوصل إلى معيار دقيق لتمييز 
الكلمات يتمتع بتغطية أكثر شمولاً. وقد كان تحديد المعايير القياسية 
juni‏ الكلمات لاب بسورة صما يل ابت انين نى 
أساس التوزيع الحقيقي للمادة اللغوية داخل البيئة اللغوية الواقعية. 

ب- تبني الإجراءات الضرورية لضمان تمييز قياسي وموحد لتمييز 
الكلمات. i‏ 

-١‏ اتخاذ قرارات deja‏ بشأن الوحدات اللغوية التي تحمل Cad‏ لغويًا 
لمدة طويلة بين المتخصصين. على سبيل المثال» التركيب الإضافي 
المكون من رمزين إلى أربع رموز صينية بالصيغة "اسم + aul‏ 2 
و'قعل + اسم" 1 كان طول أحد عناصره Wy‏ و لايتم 
تقطيعه إلى وحدات أقل. 

؟- العديد من العناصر الدقيقة المكوّئة للمعيار pit‏ خصيصى 
باعتبارها كلمة أو عدة كلمات. عل سبيل المثال jai‏ الذي 
يعني 'نصف" عندما يعبر عن عدد مستقل يتم تمييزه على أساس أنه 
كلمة» مثل: 

Oe) FF 
一 / 斤 / 半 


)3( كلمة ST‏ وحدة قياس صينية للوزن تساوي ٠٠١‏ جرام. (المترجم) 
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بمعنى: 

نصف / نصف كيلو (ربع كيلو) 

واحد / نصف كيلو / نصف (كليو إلا ربع) 

إلا أن الوحدات التالية التي تحتوى الرمز "كد" يتم تمييزها على أنها 
كلمات متعددة المقطع؛ ولا يمكن تقسيمها إلى وحدات أصغر خلافا للمثشالين 
السابقين» مثل: 

一 半 儿 、 多 半 儿 、 两 半 儿 、 大 半 儿 、 一 多 半 儿 、 一 大 半 儿 。 
معابير ترميز تصنيف الكلمات‎ 一 

إن المعايير التي تم اعتمادها لترميز تصنيف الكلمات تشمل عدد ۱۹ 
علامةء من بينها عدد VO‏ علامة لترميز تصنيف الكلمات» وعدد VE‏ علامة 
لترميز علامات الترقيم. وقد تم اتباع نظام متعدد المستويات لاستخدام 
العلامات الخمس والتسعين لترميز تصنيف الكلمات؛ على أن يكون أكبر قدر 
من المستويات هو ثلاثة مستويات» مثل: npf’‏ فالعلامة ha'n"‏ المستوى 
الأعلى» وتشير إلى الاسمء Ui‏ العلامة "م" فتشير إلى المستوى الأوسط وتعني 
تصنيفا فرعيًا للاسم وهو اسم العلم» أما العلامة ۴" فتشير إلى المستوى الثالث» 
وتعبر عن اسم ale‏ أجنبي» يختلف عن أسماء الأعلام اليابانية والكورية 
والصينية التي تتبع الأسلوب الصيني في تسمية الأعلام الشخصية. 

ويستعين المستوى الأعلى من العلامات عدد Ae YY‏ منها العلامة 
"5" التي تشير إلى الاسمء والعلامة V‏ التي تشير إلى الفعل؛ والعلامة "a"‏ 
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التي تشير. إلى الصفة» والعلامة "<" التي تشير إلى الكلمات المعبرة عن 
الحالة» والعلامة "ط" التي تشير إلى التمييزء والعلامة E‏ التي تشير إلى اسم 
الزمان» والعلامة "ك" التي تشير إلى اسم المكان» والعلامة ۴" التي تشير إلى 
اسم الموضعء والعلامة m"‏ التي تشير إلى الأرقام» والعلامة "4" التي تشير 
إلى الكلمات الكميةء والعلامة "4" التي تشير إلى الظرف» والعلامة "٣"‏ التي 
شیر إلى الضمائرء والعلامة "ه" التي تشير إلى الكلمات الصوتيةء والعلامة 
"e‏ التي تشير إلى كلمات التعجب» والعلامة "٠"‏ التي تشير إلى حروف 
العطف» والعلامة "م" التي تد eee‏ الم et‏ و 
إلى الكلمات المساعدة والعلامة "ر' التي تشير إلى كلمات اللهجةء والعلامة 
T‏ التي تشير إلى الكلمات الاعتراضية» والعلامة "ل" التي تشير إلى الأمثالء 
والعلامة k"‏ التي تشير إلى اللواحق» والعلامة "×" التي تشير إلى الأرقام 
العربية والحروف الإنجليزية. 
وقد تميزت المعايير المُنْتَخْدَمة في ترميز تصنيف الكلمات الصينية 
بالخصائص التالية: 
أ) الاهتمام الشديد بالنقاط الصعبة في ترميز تصنيف الكلمات. فعندما 
يتم وضع رمز لنوع الكلمة داخل الذخيرة يمكن بصورة عامة 
مواجهة الحالات التالية: 
-١‏ الكلمات التي تتمتع بثبوت المعنى وأحادية الوظيفة النحوية لا 
يحدث تجاهها ازدواج في وضع الترميزء ويصبح من السهل 
الاستدلال على الفئة التي تنتمي إليها ووضع الرمز الخاص بها. 
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-Y‏ الكلمات ذات الازدواجية النحوية التي لها وظائف نحوية مختلفة؛ 
التي تمثل اختلافات دلالية كبيرة Ly)‏ في ذلك الكلمات المتفقة فسي 
الشكل) يمكن أن ينطبق عليها معياران أو أكثر من معايير الترميز. 

-Y‏ هناك قدر من الكلمات على الرغم من عدم اتفاقها في الوظيفة 
<< النحويةء فإن هناك Da!‏ حول مدى اعتبارها كلمات ثنائية 

التصنيف. 


؛- يمكن إدراج الكلمة تحت تصنيفين أو أكثر مسن وجهة EN‏ 
النحوية أو الدلالية؛ ولكن من الناحية العملية لا يمكن أن يتم 
إدراجها تحت تصنيفين؛ مثل الصفات والأفعال اللازمة. 

5- الكلمات التي لا يوجد اتفاق حول وظيفتها النحوية» ومن الصعب 
العثور على تصنيف مناسب لها. ش 

1- فئات أخرىء Ly‏ في ذلك المشكلات التي تنشأ من تمييز الكلمات» 
والاستخدام المؤقت للكلمات وما إلى ذلك. وتتركز الصعوبات 
الخاصة بترميز أنواع الكلمات بشكل أساسي في النقاط الأربع 
الأخيرة؛ مثل الصفات وحدود الأفعال اللازمةء والتمييز بين كل من 
الكلمات والظروفء وبين كل من الأسماءء والأفعال» والصفات» 
وغير ذلك من مشاكل تمييز الأنواع النحوية للكلمات. لأنه عند 
وضع المعايير القياسية للترميز يتم الانتباه بشدة إلى هذه الأنواع. 

ب) هناك جزء من الكلمات تم عمل ترميز متعدد المستويات لهاء 
الأمر الذي يسهل عملية تقديم المعلومات الخاصة بترميز تصنيف 
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الكلمات» تلك المتعلقة بعدد من Ghul pall‏ الخاصةء بالإضافة إلى 
إمكانية إجراء بحوث متخصصة عن بعض أنواع الكلمات التي لها 
تمثيل ضعيف داخل الذخيرة. 

ج) البحث الدقيق عن أسماء الأعلامء وبصورة خاصة أسماء 
الأشخاص؛ حيث يتم تمييزها بصورة دقيقةء وتقديم معلومات وافية 
وغنية عن الاسم وطرق التعرف عليه. | 

د) الترميز الجزئي للمعلومات النحوية. تتركز تلك المعلومات بصورة 
أساسية في الجزء المتعلق بالفعل داخل الجملة (فالصفة التي يكون 
لها موصوف يتم ترميزها على أنها فعل). وهكذا يمكن عمل 
دراسات متخصصة متعلقة بالفعل مثل بعض التعبيرات اللغوية التي 
يمكن التعامل معها من زاوية التعدي أو اللزوم؛ ويمكن أيضًا عمل 
بعض الدراسات المتعلقة ببعض الأنماط الخاصة للجمل. 

(一‏ إعطاء علامات خاصة لبعض الكلمات التي لها نسبة تكرار 
مرتفعة» من أجل تسهيل عمل دراسات متخصصة حولها. 


4- ضمان مستوى الجودة في معالجة الذخيرة الصينية 


إن مرحلة معالجة الذخيرة من حيث تمييز حدود الكلمات وترميزها 


نحويًا يتم تنفيذها آليّا؛ ولكن على أساس أن يتم عمل مراجعة بالطاقة البشرية 
لنتيجة التمييز والترميز؛ حيث S‏ المراجعة البشرية للنتيجة من أهم 
مراحل العمل في الذخائر اللغوية بصورة عامة. 
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إن deal yall‏ البشرية لنتيجة معالجة الذخائر اللغوية يتضمن مجالين 
أساسيين هما: عملية تمييز الكلمات وعملية تحديد أنواع الكلمات. فأكثر 
المشكلات ظهور! في مرحلة تمييز الكلمات في الذخيرة هي عدم التوحيد في 
عملية تمييز الكلمات التي تتكون من مقاطع متشابهةء أما أكثر المشكلات 
ظهورا في عملية ترميز الأنواع النحوية الكلمات فتتمثل في أن يكون هناك 
تشابه تام بين الشكل والوظيفة النحوية ومعنى الكلمةء ويؤدي ذلك إلى عدم 
توحيد في عملية الترميز. 

وهذا النوع من المشكلات يتم مراجعته على مستويات منفصلة وفقا 
لطبيعة كل مشكلةء بالإضافة إلى أن كل مرحلة يتم فيها اتباع وسائل مختلفة 
بهدف الوصول إلى قرار موحد بشأنها. 
١‏ - مراجعة تمييز الكلمات 

تنقسم عملية مراجعة تمييز الكلمات إلى مرحلتين: الأولى يتم فيها 
قراءة تتبعية للنص» يصاحبها قراءة تتبعية للمفردات التي تم تمييزهاء 
والخطوة الثانية يتم فيها كتابة برمجية استعلام عن الكلمات المتفقة من حيث 
التقسيم» بغرض استخراج جميع الحالات التي تمثل Ladd‏ في عملية التمييزء 
واستخدام ذلك في عمل مراجعة تفاعلية مع قائمة المفردات المستخرجة. 
* - مراجعة الترميز النحوي للكلمات 

تنقسم عملية مراجعة الترميز النحوي للكلمات Gal‏ إلى مرحلتين» 
المرحلة الأولى يُتبّع فيها عملية القراءة التتبعية للنص بالتوازي مع القراءة 
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التتبعية للكلمات وترميزها. Lal‏ المرحلة الثانية فبغرض التغلب على مشكلة 
us sil‏ في معايير تمييز الكلمات في أثناء مراجعة نتيجة تمييز الكلمات» فإن 
فريق إنشاء الذخيرة كان في حاجة إلى تكوين قائمة تضم جميع الكلمات 
المكونة للذخيرة وعلامات الترميز المستخدمة؛ وذلك من أجل عمل مراجعة 
تفاعيلة لمراجعة نتيجة ترميز أنواع الكلمات. وبذلك يمكن تجنب وضع 
علامات مختلفة للوحدات اللغوية نفسها. 

وهذه الذخيرة من المنتظر رفعها على شبكة المعلومات لخدمة أكبر 


sac‏ من الباحثين. 
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الباب الخالحث 
معالجة الذخائر اللغوية وتقنفيات إدارقها 
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الفصل الأول 
الاستعلام داخل الذخائر اللغوية وتطبيقاته 


بعد الانتهاء من بناء الذخيرة اللغوية» يتم عرضها للاستخدام من قبل 
جميع الباحثين؛ بغرض تمكينهم من التعامل مع مضمون BY‏ وإجراء 
عمليات التحليل للظواهر اللغوية الواقعية الموجودة في مادتها اللغوية. ل ذلك 
فإن أبسط ما يمكن أن تُقدمه الذخيرة اللغوية للمستخدم هو أدوات الاستعلام 
عن المواد اللغوية داخل الذخيرة. 


أولاً: الاستعلام الإحصائي السياقي عن الكلمات 

عادة ما تلجأ الذخائر اللغوية المُمَيُكنة إلى أسلوب الاستعلام الإحصائي 
السياقي عن الكلمات “concordance”‏ لتقديم المعلومات الإحصائية المتعلقة 
بالسياقات التي تظهر فيها كلمة معينة داخل متن الذخيرة. Seuss‏ البرامج 
المختصة بالاستعلام الإحصائي عن سياقات الكلمات موقع الكلمة موضع 
البحث في كل مرة ظهرت فيها داخل الذخيرة» bling‏ على ذلك يمكن تقديم 
المعلومات السياقية المتعلقة بتلك الكلمة. وهذه المعلومات يمكن أن تظهر 
مباشرة على شاشة الحاسب أو يتم حفظها في ملف معين. وهذا الملف الذي 
يتم ahia‏ يُطلّق عليه اسم ملف الإحصاء السياقي للكلمات ° concordance‏ 
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وقبّل عمل استعلام إحصائي عن سياقات الكلمات» تكون هناك حاجة 
لبناء فهرس لكل كلمة من كلمات الذخيرةء Sond‏ في هذا الفهرس موقع هذه 
الكلمة داخل النص في كل مرة من مرات ورودهاء ثم يتم إعادة فهرسة ملف 
البيانات هذا وفقا للأنماط الجديدة التي يحتويها؛ وذلك من أجل تسهيل عملية 
البحث في داخله؛ كأن يتم بناء الجدول المفهرس لل ذخيرة وفقا للترتيب 
الأبجدي لكلماتها. وبذلك يُمكننا في أثناء عمل الاستعلام عن سياقات الكلمات» 
الحصول بسهولة عن السياقات التي وردت فيها الكلمة موضع البحث. 

إن أبسط ما adh‏ البحث الإحصائي عن سياق الكلمة هو الاستعلام 
بموضع الكلمة؛ حيث pi‏ هذا الاستعلام عرضنا مهرسا لموقع الكلمة محل 
البحث في كل مرة وردت فيها. داخل النصء بالإضافة إلى إمكانية تقديم 
إحصائية عن معدل ظهور هذه الكلمة داخل الذخيرة بأكملها. وهناك نوع 
lst Gee!‏ الاستعلام السياقي هو الاستعلام عن السياقات التي ترد فيها 
كلمة ما Jala‏ الذخيرة؛ حيث يقنم السياقات التي ترد فيها الكلمة موضع البحث. 
-١‏ الاستعلام عن كلمة مفتاحية داخل السياق 

أهم نوع من أنواع الاستعلامات وأكثرها شيوعًا هو الاستعلام عن 
كلمة مفتاحية داخل السياق "Key Word in context’‏ والذي يطلق عليه 
اختصارا اسم KWIC‏ وفي ذلك الاستعلام تظهر الكلمة السُمْتَعلّم عنها في 
منتصف كل سطرء وقبلها وبعدها مسافةء ويلي كل مسافة Lagia‏ سياق نصي 
بعدد من الكلمات يمكن التحكم في طوله. وفي هذا الأسلوب من أساليب 


a 
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العرض تتراص الكلمات موضع البحث في كل سطر HS‏ عمودًا رأسيًا 
ظاهر! للعيان. ويُظهر Cota) د١ Usa‏ عن كلمة kiau Ws‏ وا 





of activity and communication 


communication where the is 

activity 

whole process the activity is 

reader in his armchair is 

radio listener his brain is 
man communication through is 


hu 














` halted in time if 


only one of them 













obvios enough the 
nervous 

making continuous 
fast and 

highly active if he 

only a small sub- 
section 





شكل )1-1(: نتيجة البحث السياقي KWIC‏ عن 
كلمة "is"‏ في اللغة الإنجليزية 
كما يمكن تعديل طول السياق المصاحب للكلمة من جهة اليسار وجهة 
اليمين حسب الحاجة؛ حيث يمكن زيادة أو نقصان عدد 5 كلمات من جهة 
اليمين أو اليسار. وهناك بعض أدوات الاستعلام الحاسوبية يمكنها توسيع ما 
يُعْرض في نتيجة الاستعلام لتستخرج كامل الجملة أو الفقرة التي وردت فيها 
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الكلمة موضع الاستعلام. 


-Y‏ الترتيب المُفهؤرس للأسطر 

هذا النوع من الاستعلام له عدة أشكال؛ الشكل الأكثر شيوعًا هو: 
ترقت de hdd shad‏ وها Gaal‏ شزرل J bell‏ رب 
السطر RL‏ عته وفقا للترتيب الأبجدي لكلماته. على سبيل المثالء ترتيب 
نتيجة البحث حسب الترتيب الأبجدي للكلمة التي تأتي يمين الكلمة المفتاحية. 
a‏ ا تستدعيها الكلمة المفتاحية؛ التي 

تغتبر في تلك الحالة هي الكلمة المركزية التي تدور حولها عملية البحث. 
وهناك طريقة ة أخرى للترتيب هي فهرسة الأسطر حسب الترتيب الأبجدي 
لآخر حرف في الكلمة المجاورة للكلمة موضع البحث من Aga‏ اليسار. وما 
إن تكون الكلمة المفتاحية فعلا من حيث التصنيف النحوي» حتى يمكن لهذه 
الطريقة في البحث أن تعثر وبسهولة على delil‏ في كل جملة؛ ومن a‏ 
يمكن تقديم بعض الخيوط التي من شأنها أن تساعد في التعرف على عملية 
الاقتران الإسنادي وعناوين النصوص. كما يمكن الحصول على الفهرسة 
حسب الكلمات الواقعة يمين الكلمة موضع البحث ويسارها؛ حيث يتم وضع 
الكلمات المصاحبة للكلمة موضع البحث معًا حسب أكثرها تواتراء وهذه 
الطريقة من طرق إظهار نتيجة الاستعلام لها استخدامات عظيمة في 
الدراسات التي تبحث في قواعد التصاحب اللغوي بين الكلمات. 

وبالنسبة إلى الكلمات ذات معدل التكرار الأعلى داخل الذخيرة يمكننا 
أيضًا اللجوء إلى أسلوب الاستعلام من خلال العينات لتقليل نطاق العينات 
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المستخدمة في الاستعلام. على سبيل المثال» عند الاستعلام عن كلمة معينة 
يمكننا ضبط الرقم الاسترشادي للاستعلام على ١٠؛‏ بحيث يتم الاستعلام مرة 
كل عشرة أسطرء وبذلك يمكن أن Galli‏ نتيجة الاستعلام بنسبة pall‏ عن 
النتيجة نفسها إذا co sal‏ دون هذا التدخل. 

وفي اللغة الإنجليزيةء يمكننا استخدام علامة النجمة * للاستعلام عن 
الكلمات التي لها علاقة بالأصل الاشتقاقي لكلمة معينة. مثل البحث بالصيغة 
فتكون نتيجة الاستعلام هي: photo, photograph,‏ 
photographer, photography‏ وغيرها من الكلمات المو لدة من الكلمة 
الأساسية موضع البحث بالإضافة إلى الأسطر التي احتوت سياقات لها. كما 
يمكن ba‏ الاستعلام باستخدام اللواحق النحوية والتعرف على بعض الكلمات 
الخاصة وخصائصها النحوية. على سبيل المثالء استخدام صيغة الاستعلام 
Png"‏ لسرد جميع الكلمات التي تحتوي اللاحقة Sing”‏ واستخدام الصيغة 
eg"‏ للاستعلام عن الجمل الاستفهامية. 

استخدام المنطق المركب وصيغة oowithn”‏ للاستعلام عن السياقات 
التي تفصلها كلمات معينة لها علاقة بالكلمة موضع البحث سواء كانت 


تعبيرات لغوية أو جزء من جملة. 


ثانيًا: تطبيقات الاستعلام بالكلمة داخل الذخائر اللغوية 
تيح الإستعانة بالقدرات الهائلة للحاسب الآلي في الحساب ومعالجة 
المعلومات» تتيح للمستخدم الاستفادة من برمجيات الاستعلام عن الكلمات في 
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استخراج المحتويات التي يرغب في الحصول عليها من الذخيرة بالإضافة 
إلى مراقبة تلك الكلمات داخل البيئة اللغوية المصاحبة لهاء أو إجراء دراسات 
مقارنة عن الظواهر اللغوية المتعلقة بها. إن هذا النوع من التطبيقات القائمة 
على الذخائر اللغوية له قيمة هائلةء ويتمتع بقدرة تطبيقية واسعة النطاق تزداد 
Logs‏ بعد يوم في مجالات الأدب وعلم اللغة» وتعليم اللغات وأنظمة معالجة 
اللغات الطبيعيةء بالإضافة إلى ما حققه بالفعل من نتائج مذهلة حتى الآن. 
وفيما يلي قائمة بمجالات التطبيق سالفة الذكر )23 
١‏ - التطبيقات في مجال الأدب 

يتمثل ذلك في بناء ذخائر لغوية للأعمال الأدبية المشهورة؛ وإنشاء ملفات 
مفهرسة قائمة على تلك الذخائر. وتستخدم ملفات الفهرسة على نطاق واسع في 
مجال الدراسات الأدبية؛ حيث تقدم بيانات مثالية للتعرف على خصائص أعمال 
أحد الأدباء أو col ell‏ وطرق استخدامه للكلمات وأسلوبه اللغوي. 

إن إنشاء ملف مفهرس عن الأعمال الأدبية وإتاحته للاستخدام من قبل 
علماء اللغة يُمكنهُم من دراسة خصائص أسلوب أدبي معين في الكتابة؛ فعلى 
سبيل المثال» من خلال إنشاء ملف مفهرس للأعمال الأدبية لشكسبيرء يمكننا 
أن ندرس الصيغ المختلفة لضمير المخاطب في اللغة الإنجليزية مثل ( ye,‏ 
(you, your, yours, thou, thee, thy, thine‏ ومجالات استخدام كل citna‏ 
ومن ab‏ يمكن طرح بعض الفروض الخاصة بعلم اللغة الاجتماعي وقياسهاء 
على غرار: من المتحدث؟ ومن المتحدّث إليه؟ وما ظروف الحديث 
وملابساته؟ وما إلى ذلك. وعلى سبيل المثال أيضاء LHS‏ عن طريق 
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الانتعلام. بالكلمات Ginny  مادختشا Gy gh Guat of‏ الكلمات GS yell‏ على 
اتجاهات تطور الاستخدام اللغوي على مدى مائتي عام من خلال دراسة لغة 
أعمال الشاعر الألماني جوته. فمثلا كلمة "knable”‏ كانت ps‏ على نطاق 
واسع في شعر (Goethe) Aisa‏ إذا ما قورن ذلك باستخدامها في الأعمال 
الحديثة. وجميع الأنماط اللغوية الأخرى يمكن التعامل Lers‏ بمثل تلك 
الطريقة. كما يمكن عمل دراسات مقارنة للأعمال الكلاسيكية مع الأعمال 
الأدبية الحديثة» وعمل تحليل كمي لمثل تلك التغيرات التي تحدث للغة مع 
مرور الزمن. ويمكن Cad‏ استخدام الاستعلام بالكلمة لعمل دراسات عن 
الكلمات وأنواعها والتراكيب النحوية داخل الأعمال الأدبية من خلال عدة 
زوايا للتحليل؛ وذلك بغرض التعرف على أوجه الاختلاف والتشابه بين 
أعمال GUSH‏ في مراحلهم الإبداعية الأولى والمتأخرة فضلاً عن دراسة 
أوجه الاختلاف والتشابه بين أساليب عدد من الكتاب» بالإضافة إلى تقديم أدلة 
قوية للحكم على مدى انتماء بعض الأعمال الأدبية لفترات معينة من فترات 
الإبداع الأدبي. 
7- التطبيقات في مجال الدراسات اللغوية 

أشار ليتش (Leech:1992)‏ إلى أن الأداة الأكثر بساطة وفاعلية 


والأكثر استخدامًا والقائمة على أساس حاسوبي هي الاستعلام عن الكلمات. 
وتتمثل التطبيقات النموذجية لذلك في: 


-١‏ الدراسات في علم المفردات: حيث يتم التوصل إلى مغزى الكلمات 
وما تحمله من معنى في سياق محددء بالإضافة إلى طرق استخدام 
تلك الكلمات من حيث cael gill‏ وطبيعة الأسلوب» والسياق وما إلى 
ذلك. 

؟- الدراسات النحوية التصنيفية: تمييز وتصنيف الأمثلة النموذجية 
المستخدمة في بعض المجالات من حيث النحوء والدلالة» والسياق» 
والأسلوبية. والذخائر اللغوية b jagal‏ صرفيًا ونحويًا هي DHS)‏ 
الذخائر ملائمة لهذا الغرض. 

Y‏ في مجال تعليم اللغات: في أثناء تأليف المواد الدراسية لتعليم اللغة 
الإنجليزيةء قام بيبر (Biber)‏ وآخرون عام ۱۹۹١‏ بعمل دراسة عن 
الأساليب البلاغية التي تتكون من الاسم + صفة في اللغسة 
الإنجليزيةا"”!؛ حيث قاموا بعمل دراسة مسحية عن شرح هذا 
التركيب في عدد من المؤلفات في قواعد اللغة الإنجليزية في فقرة 
ثمانينيات القرن العشرين» واكتشفوا أن غالبية هذه المؤلفات النحوية 
تهتم بهذه العلاقة بصورة áh gala‏ لدرجة أن شرح هذه القاعدة قد 
وصل إلى ٠٠‏ صفحة. led‏ النصوص التي تتناول التركيبات البلاغية 
المكونة من اسم + تعبيرة وصفية من جار ومجرور فقد كان عددها 
أقل نسبيًا؛ حيث لم يتجاوز إجمالي عدد صفحاتها خمس صفحات. 

أما برمجية ea‏ في ذخيرة لوب وذخيرة 

TEE E TORE E ET 
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فقد cis‏ أن عدد مرات ظهور OLS sll‏ الوصفية باستخدام الصيغة اسم + 
تعبيرة وصفية من جار ومجرور أكثر بكثير من التركيبات الوصفية باستخدام 
الصيغة اسم + تعبيرة وصفية من الصلة والموصول؛ حيث وصلت نسبة 
تواجد الصيغتين في كل ألف كلمة على التوالي %۲۳,۳ مقابل %0,0 
بالإضافة إلى أن هناك دراسات قد أثبتت أن تركيب الاسم + التعبيرة 
الوصفية من جار ومجرور تعتبر من التركيبات الصعبة التي تواجه الدارسين 
الأجانب للغة الإنجليزية. 

وهذا يشير إلى أن اهتمام القائمين على تعليم القواعد بظاهرة لغوية من 
aoe‏ يعن Ha djl‏ حبك Y‏ يتطايق ام se‏ اللغوينة 
الواقعية. وعند تأليف هذا النوع من المواد الدراسية لا ينبغي الاكتفاء بمراعاة 
درجة صعوبة الظواهر اللغوية وطرق تدريسهاء بل ينبغي التفكير أيضًا في 
ظروف الاستخدام الواقعي لهذه الظواهر في اللغة. على هذا الأساس فقد تم 
تأليف كتاب (كولينز كوبويلد لقواعد اللغة الإنجليزية) على أساس التوافق مع 
قدر كبير من الحقائق اللغوية الموجودة في ذخيرة كوبويلد. وقد استغل هذا 
الكتاب تقنيات الاستعلام داخل الذخيرة لتقديم قدر كبير من التراكيب النحوية 
وأمثلة واقعية حولها. 
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الفصل الثاني 
توظيف الإحصاء في علم الذخائر اللغوية 


تعتبر الذخائر اللغوية مصدرا مهما لإجراء التحليل الكمي للغة. إلا أن 
استخدام الإحصاء الكمي في علم الذخائر اللغوية ليس بالأمر الذي يمكن 
إجراؤه بسهولة داخل المادة اللغوية A A‏ لمتن الذخيرة. والتقنيات 
الإحصائية المستخدمة في هذه الحالة لا تقتصر على إجراء التحليل الرياضي 
للبيانات اللغوية المعقدة واستخراج القواعد المنظمة لتلك البيانات اللغوية 
فحسب» بل يمكن استخدامها أيضًا في تفسير العلاقة بين كل من أسلوب 
الكتابة والتركيب اللغوي. 

ويقدم هذا الفصل أكثر الطرق الإحصائية قيمة واستخدامًا في علسم 
الذخائر اللغوية PI‏ وفي هذا الجزء AB‏ تعريقا مختصرا! لأهم الطرق 
وأكثرها شيوعًا في علم الذخائر اللغوية؛ ونظرًا إلى عدم إمكانية حصر 
تفاصيل كل المنهجيات الإحصائية في هذا المقام؛ فسوف نكتفي بالحديث عن 
وسائل تطبيق تلك التقنيات الإحصائية في علم الذخائر اللغوية بشكل مبسط؛ 
على سبيل المثال» كيفية الاستخدام» والمغزى الحقيقي من استخدامهاء مع 
عدم التعرض للتفاصيل الدقيقة لتطبيقها. 
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أولا: إحصاء معدل التكرار 


يُعتبر التعداد من أبسط الأعمال الإحصائية التي يتم تنفيذها على 
. الذخائر اللغويةء بمعنى إجراء عملية Se‏ لعدد مرات ظهور بعض الظ واهر 
اللغوية في أنواع معينة من النصوص. والتوصل إلى عدد مرات ورود 
المداخل اللغوية داخل الذخيرة» يساوي الحصول على عدد مرات تكرار تلك 
المداخل في الذخيرة بأكملها. ففي اللغة الإنجليزيةء قد تكون تلك المداخل 
كلمةء أو تركيبًا لغوبًا بعد حذف الإضافات الملحقة به أو نوعًا معينا من 
الكلمات» أما في اللغة الصينية فقد تكون تلك المداخل هي الرمز الصيني أو 
الكلمة الصينية. وسوف تكون الإشارة في هذا الفصل إلى الكلمة ما لم يكن 
هناك داع للإشارة إلى نوع yal‏ من المداخل اللغوية. تكون خطوات التعداد 
rene LS‏ كل كلمة من الكلمات داخل الذخيرة يصورة متوالية:؛ وإذا 
كانت الكلمة قد ظهرت من قبل؛ يتم إضافة ١ gii‏ على عدد مرات ظهور 
هذه الكلمة» وإلا يتم إضافة هذه الكلمة إلى قائمة الكلمات المكررة؛ ووضع 
الرقم ١‏ أمامها. 

يُستخدم الرقم الذي تم التوصل إليه من خلال التعداد للإشارة إلى معدل 
تكرار الكلمات داخل الذخير بأكملهاء وهذا الرقم له استخدامات كثيرة في علم 
الذخائر اللغوية. فإذا تمت فهرسة قائمة الكلمات المستخرجة من الذخيرة وفقا 
لعدد مرات التكرارء يمكننا عمل دراسة عن ظروف توزيع المفردات داخل 
النصوص. على سبيل المثالء في نص تقني» إذا نقص استخدام المصطلحات 
التقنية في منطقة معينة من النص» وزاد استخدام هذه المصطلحات فجأة فيما 


بعدء فإن هذه الملاحظة تشير بصورة خاصة إلى الحدود الفاصلة بين أجزاء 
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النص؛ بمعنى أن يكون ذلك إشارة إلى نهاية مقدمة النص» laut:‏ 
إشارة إلى مقدمة قد كتبها أحد الأشخاص غير المتخصصين. أما ترتيب قا 
الكلمات حسب الترتيب الأبجدي فيُسْتخدم بصورة أساسية في عمل قائمة 
مفهرسة لمفردات الذخيرةء وبذلك يمكن زيادة سرعة البحث عن الكلمات 
داخل الذخيرة؛ أما الترتيب التنازلي لقائمة المفردات حسب معدل التكرارء 
فيساعد في الدراسات القائمة على علاقة الأسلوب بالكلمات. وفيما يتعلق 
بمقارنة قائمة الكلمات ومعدل تكرارها على مستوى نوع معين من النصوص 
بمثيله على مستوى ذخيرة كبيرة» والتوصل إلى استخراج قائمة بالكلمات 
الأكثر تكرارا في الذخيرتين» فيشير إلى أن تلك القائمة من الكلمات تتمتع 
بقدر من الثبات في الاستخدام. ويساعدنا في استبعاد تلك الكلمات ذات معدل 
التكرار الأعلى»ء وبالتالي تخمين الكلمات المفتاحية لنوع معين من 
Papai‏ 


ثانيًا: النسبة 
النسبة التي تحتلها كلمة معينة داخل الذخيرة Ta‏ بها عدد مرات 
ظهور الكلمة داخل الذخيرة مقسومة على العدد الإجمالي لمجموع تكرارات 


)١(‏ على سبيل المثال إذا كان لدينا نص متخصص في مجال البيئةء وحصلنا على جدول 
تكراري تنازلي عن كلمات هذا النص» وعقدنا مقارنة بين مجموعة الكلمات الأعلى 
من حيث عدد مرات التكرار والكلمات المقابلة في ذخيرة أخرى عامةء وقمنا باستبعاد ` 
تلك الكلمات الأعلى من حيث التكرار من الجدول التكراري للنص المتخصصء فإن 
ما يتبقى من LS‏ بداية للتعرف على الكلمات المفتاحية التي pii‏ في مجال 
البيئة. (المترجم) 
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كلمات الذخيرة بالكامل. وعلى الرغم من أن تعداد مرات التكرار يُعتبر . 
طريقة فعالة للمعالجة الكمية للبيانات داخل الذخيرة» حيث إنها من الطرق 
المستخدمة دائمًا في الدراسات القائمة على ذخائر لغويةء فإن هذه الطريقة 
تشوبها بعض أوجه القصور. على سبيل المثال» تظهر أوجه قصور هذه 
الطريقة عند مقارنة مجموعتين من البيانات. فإذا أردنا الآن أن نقارن بين 
ذخيرتين إحداهما شفهية والأخرى تحريرية في اللغة الإنجليزيةء فإن قائمة 
المفردات الخاصة بهاتين الذخيرتين ومعدل تكرار الكلمات بكل منهما يسجل 
عدد مرات ظهور كل كلمة في المجال اللغوي الطبيعي الذي خرج ais‏ 
الإحصاء. وعندما يكون نطاق الذخيرتين غير متطابق من حيث الحجم» فمن 
الصعب الوثوق بجدول التكرار هذا لعمل المقارنة. وعلى الرغم من أن عدد 
مرات ظهور كلمة من الكلمات داخل إحدى الذخائر قد يكون أكبر من عدد 
المرات في الذخيرة الأخرىء فمن المحتمل أن تكون نسبة وجود هذه الكلمة 
في الذخيرة الأولى أقل من نسبة وجودها في الذخيرة الثانية. لو فرضنا أننا 
نقارن بين ذخيرتين للغة الإنجليزية أحدهما شفهية وتتكون من خمسين ألف 
كلمةء والثائية تحريرية وتتكون من خمسمائة ألف كلمةء وكان عدد مرات 
تكرر كلمة boot‏ في الذخيرتين هو ٠٠١ cos‏ مرة على التوالي. فلو نظرنا 
من ناحية عدد مرات التكرار نجد أن كلمة "boot"‏ تكررت في الذخيرة 
التحريرية أكثر من عدد مرات تكرارها في الذخيرة الشفهية» إلا أن الحقيقة 
ليست كذلك. والآن دعونا نحسب نسبة ظهور كلمة "boot"‏ في الذخيرتين 
على السواء: 


208 


اللغة الشفهية: Soraa jon‏ \ 9% 
اللغة التحريرية: 900,١ Sossen fona‏ 
ومن الواضح أن كلمة "5004 لا يزيد معدل تكرارها في اللغة 

التحريرية بمقدار عشرة أضعاف كما يشير عدد مرات التكرار قبل حسساب 
النسبة» بل إن معدل تكرار الكلمتين في الذخيرتين متساو كما تشير معادلة 
النسبة التي تم حسابها. cll‏ فإنه عند مقارنة البيانات في ذخيرتين مختلفتين 
في canal‏ لا يمكن اللجوء إلى المقارنة السطحية لعدد مرات الظهور داخل 
الذخيرة» بل ينبغي حساب نسبة هذه الأرقام إلى رقم آخر؛ حيث يمكن أن 
يكون للرقم الناتج دلالة يمكن الاعتماد عليها. وفي ذلك الوقت يكون أسلوب 
الحساب Could)‏ هو: 


عدد مرات ظهور الكلمة داخل الذخيرة 


النسبة = - 
إجمالي sac‏ كلمات الذخيرة ' 





وهذه النسبة يتم التعبير عنها بالنسبة المئوية. 
ÉG‏ أسلوب الاختبارات الإحصائية 

على فرض أننا نريد مقارنة الإصدارين اللاتينيين لكل من إنجيل متا 
وإنجيل يوحناء سنجد أن مقارنة حالات الاستخدام لصيغة المضارع "dicit‏ 
وصيغة الماضي “dixit”‏ لفعل القول say”‏ 60 في الذخيرتينء علينا أن نبدأ 
بإحصاء عدد مرات تكرار كل كلمة في كل إصدار. وتغون نتيجة الإحصاء 


كما يلي: 
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ويمكننا أن نلاحظ من خلال الأرقام السابقة أن عدد مرات استخدام 
صيغة المضارع (dicit)‏ في إنجيل يوحنا أكثر من عدد مرات استخدامها في 
إنجيل متا. وعلى فرض أن هناك عدم اتفاق بين الإنجيلين يتمثل في هاتين 
النقطتين» فإننا نحتاج إلى إثبات أن هذه الملاحظة ليست وليدة الصدفة مسن 
خلال العمليات الإحصائية. فنحن لا يمكننا الاكتفاء بالبيانات الموضحة 
بالجدول السابق للحصول على هذه النتيجة؛ ولكن الأمر يستدعي مستوى 
أعلى من التجريب» بمعنى إجراء اختبار إحصائي من أجل تقرير أوجه 
الاختلاف بين استخدام فعل القول (to say)‏ في الإصدارين» وإقرار درجة 
احتمال الصدفة في وجود هذا الاختلاف. 

يمكن لعلم الذخائر اللغوية اللجوء إلى أكثر من اختبار إحصائي 
للتوصل إلى cull‏ وهذه الاختبارات تشمل اختبار كا )2° o(‏ واختبار تي غ 
وغيرها من الاختبارات. وحتى نوضح أهمية استخدام هذه الاختبارات في 
عمليات التحليل cg sl‏ ستقدم شرحًا مبسطًا لاختبار كا )2°( وذلك 
نظر! إلى أن اختبار x ( 7S‏ ) من أكثر الاختبارات الإحصائية اس تخداما؛ 

حيث يتمتع بالمميزات التالية: 
)۱( زيادة حساسيته تجاه البيانات مقارنة باختبار تي ot‏ 
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(Y)‏ لا يحتاج هذا الاختبار إلى توافر فرضص "التوزيع الطبيتعي" 
للبيانات» الذي Y‏ يمكن الحصول عليه لبعض البيانات اللغوية. 

WS ومن عيوب اختبار‎ .) Z) سهولة حساب اختبار كا‎ (Y) 
عندما تكون المادة التي يتم البحث عنها قليلة العدد فإن النتائج‎ a) 
تفتقد إلى الموثوقية.‎ 


ists‏ اختبار کا" )7° ) غالبا في مقارنة الفرق بين عدد مرات 
التكرار المشاهدة داخل الذخيرة مع عدد مرات التكرار ABE gil‏ وكلما 
اقترب عدد مرات التكرار المُشاهدة مع عدد مرات التكرار A‏ كانت 
الظاهرة اللغوية تَحْدُتْ على سبيل المصادفة. وعلى العكس من ذلكء كلما زاد 
الفرق بين عدد مرات التكرار AEA‏ وعدد مرات التكرار المشاهدة ‘phe‏ 
ذلك عن أن ase‏ مرات التكرار المُشاهدة قد حدث نتيجة تأثير عوامل معينة 
وليس على سبيل 'الصدفة. وإذا تحدثنا عن المثال السايق» نجد أن هناك اختلافا 
حقيقيًا بين إصداري الكتاب المقدس في طرق استخدام فعل -(tosay) J sill‏ 
بغض النظر عن التفاصيل الخاصة بخطوات حساب قيمة WS‏ 
A E’)‏ وعلى get‏ تتا باعل مسن حاب قيسة كا 2) 
لصيغتي المضارع والماضي من Sed‏ القول dixit" s dicit"‏ ثم ار La‏ 
التعرف على درجة أهمية هذه القيمة في جدول قيم کا )"2 )؛ فقبل ذلك 


we 9 


ينبغي تحديد قيمة درجة الحُريّة» التي haa‏ من المعادلة التالية: 


29 
)1( لمزيد من التفاصيل عن اختبار كا“ )4( انظر مراجع cla al‏ الخاصة 
بالاختبارات اللامَعلميّة.(المترجم) 
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درجة all‏ 4 = (عدد أعمدة الجدول التكراري - 1( * ate)‏ صفوف 
الجدول التكراري-١)‏ وبعد ذلك يتم البحث في جدول قيم كل )7( عسن 
قيمة الاحتمال المناظرة لتقاطع كل من درجة الحرية مع قيمة كا )4( 
وإذا اقتربت هذه القيمة من الصفر فإن هذا يعني أن الظاهرة حدثت بشكل 
a‏ وعلى العكس من ذلك إذا كانت 
القيمة أكبر من الصفر فهذا ر يعني أن الظاهرة حدثت ت على سبيل المسصادفة. 
ونظرا إلى أن درجة الاحتمال تقع بين ٠‏ و فقد Gill‏ ق على اعتبار قيمة 
تقديرية BS‏ عن أن النتيجة ذات مغزى إحصائيء وهذه القيمة المُتفق عليها 
تقدر ب ٠,٠١‏ فإذا كانت قيمة الاحتمال التي يتم الحصول عليها من جدول 
الكشف أقل من ٠.١٠5‏ فإن هذا يدل على أن نسبة %۹١‏ من المشاهدات 
تحدث عمذا؛ وإلا فإن درجة موثوقية القيم الإحصائية التي يتم التوصل Leal)‏ 
لا تصل إلى نسبة ‘PAO‏ 

والآن دعونا نحكم على الفرق بين الكلمتين في المثال السابقء وهل 
القيم الإحصائية التي تم الحصول عليها ذات مغزى أم لا؟ بالاستعانة بالجدول 
التكراري نجد أن J‏ قيمة كا" ( 2 ) تساوي ٤ MY‏ وبما أن الجدول 
التكراري السابق يحتوي عمودين وصفيّن؛ إذن درجة =Y) * )١-؟( AA‏ 
= . وعند الكشف عن قيمة الاحتمال المقابلة لتلك القيمة في جدول 
توزيع کا" )2° ) نجد أنها تساوي ٠١‏ وهي بالطبع قيمة أقل من 
القيمة التقديرية ه2٠ ٠,‏ ولذلك يمكننا الحكم أن هذا الفارق يعبر في حقيقة 
الأمر عن أن هناك اختلاقا في استخدام فعل القول في إصدار ي الكتاب 
المقدس» وأن هذا الاختلاف لم GL‏ على سبيل المصادفة. 
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رابعًا: التصاحب اللغوي 

التصاحب (collocation)‏ من المفاهيم -المهمة التي لها تطبيقات على 
نطاق واسع في علم اللغة. وباختصارء فإن التصاحب ما هو إلا نمط تظهر 
من خلاله المفردات بصورة اقترانية ويكون لذلك النمط خصائص محددة. 
ويرى (Kjellmer:1991) 5” JS‏ أن قاموس المفردات في dis‏ الإنسان لا 
يتكون فقط من كلمات مفردة» بل يحتوي العديد من الوحدات اللغوية التي 
تزيد عن الكلمة وترتبط فيما بينها بعلاقات نحوية. وهذه الوحدات منها ما هو 
ثابت» ومنها ما هو متغير. إن عملية تمييز أنماط التصاحب اللغوي داخل 
النصوص اللغوية (بالإضافة إلى ما قال به LS‏ من أنه نمط من أنماط 
التراكيب النحوية» فهو يوجد في تلك الكلمات التي دائمًا ما تظهر بم صاحبة 
كلمات معينة) تلعب دور في غاية الأهمية في مجال التأليف المعجمي؛ حيث 
يساعد ذلك في وضع معاني الكلمات وتحديد مجالات الاستخدام لكل منها 
وسياقاتها. وهذه المعلومات تلعب دور مماثلا من حيث الأهمية في علم 
معالجة اللغات الطبيعية وتعليم اللغات. 

إن الكشف عن التصاحبات اللغوية لكلمة معينة Jala‏ ذخيرة لغويةء Le}‏ 
أن يتم باستخدام المنهجيات الإحصائيةء أو باستخدام المنهجيات القائمة على 
نظرية المعلومات. 
١‏ - كمية المعلومات المتبادلة واختبار زد Z-score‏ 

إذا كان لدينا ذخيرة لغوية» يمكننا أن نكتشف أي الكلمات بينها درجة 


من درجات التصاحب الواضحة وذلك وفقا لطبيعة البيانات التجريبية التي 
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يمكن استخراجها من تلك الذخيرة» ومن المؤكد وجود قوة اقترانية CAS‏ 
مغزى بين الكلمات المكونة لتلك التصاحبات» ولا (Rb‏ التجاور بينها تجاورًا 
على سبيل المصادفة. إن كمية المعلومات المتبادلة واختبار زد Z-score‏ 
دائمًا ما يتم اللجوء إليهما في الحكم عما إذا كانت هناك علاقة تصاحب بين 
كلمات معينة أم لا. 

إن كمية المعلومات المتبادلة() [52](mutual information)‏ هي 
إحدى المفاهيم المعروفة في نظرية المعلومات؛ حيث يتم التعامل مع الكلمتين 
أ" M‏ اللتين تكونان تصاحبًا لغويًا (ومن الممكن Lad‏ أن يكون ذلك مع . 
أي عنصرين تمت مشاهدتهما على أنهما يتلازمان معا في الظهور) على 
أنهما حدثان عشوائيان يحدثان cles‏ ولحساب كمية المعلومات المتبادلة بين 
حدثين» ينبغي البدء بحساب احتمال تحقق هذين الحدثين Like‏ من خلال 
المعادلة e POW)‏ بالإضافة إلى حساب احتمال ظهور كل كلمة بمفردها 
a POM)‏ و ging e PO)‏ حساب كمية المعلومات المتبادلة من خلال المعادلة 
التالية: 


| pW, Wo) 
M (w, w) = log, 一 一 一 一 
i ° p(w) p(w) 


إن المعنى الحقيقي لمصطلح كمية المعلومات المتبادلة هو مقدار حجم 
المعلومات التي يقدمها ظهور كلمة معينة لكلمة أخرى عندما تظهر 





)١(‏ كمية المعلومات المتبادلة بين الحدث العشوائي em,‏ والحدث العشوائي wy‏ ترف 
أنها مقدار الغموض الذي يتناقص حول w‏ بعد حدوث رس . (المترجم) 
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بصحبتها. على سبيل المثال الكلمتان المتصاحبتان SLES (riding, boot)‏ 
وحدة لغوية مُجَمَّعَةَ formula Lil‏ و borrowed‏ فعلى الرغم من أنهما قد 
ظهرا US cles‏ في الجملة )... «(It is a formula borrowed from‏ فإن هذا 
التصاحب قد حدث على سبيل المصادفةء ولا يوجد بين هاتين الكلمتين 
ارتباط من نوع خاص. وبصورة عامة» فكلما زادت قوة الارتباط بين 
كلمتين» زادت قيمة المعلومات المتبادلة بينهما؛ وإذا كان هناك ارتباط سلبي 
بين كلمتين (بمعنى أن ظهور إحداهما يمنع ظهور الثانية» والعكس صحيح)» 
فستكون قيمة المعلومات المتبادلة بينهما بالسالب. أما إذا كانت الكلمتان 
تظهران بصورة مستقلة ginal)‏ عدم وجود علاقة (Lagin‏ ففي تلك الحالة 
ستكون قيمة المعلومات المتبادلة تساوي صفرا. وبعبارة أخرىء فإن الكلمتين 
اللتين بينهما قيمة معلومات متبادلة كبيرة يزداد احتمال وجود اقتران ذي 
معنى بينهماء أما عندما تقترب قيمة المعلومات المتبادلة بين كلمتين من 
الصفر أو تقل عنهء فلا يمكن أن يكون هناك تصاحب بينهما. 

أما القيم التي يقدمها اختبار زد (Z-score)‏ فتشبه تلك التي تقدمها 
معادلة كمية المعلومات المتبادلة. فبالنسبة إلى كلمة معينة داخل نص» يدم 
اختبار J‏ د (Z-score)‏ مقارنة بين المشاهدات الحقيقية والمشاهدات المُتوقمَة 
للكلمات الأخرى التي تظهر في السياق المصاحب لتلك الكلمة. وكلما زادت 
قيمة اختبار زد (Z-score)‏ لكلمة من الكلمات مع كلمة أخرى يتم تحديدهاء 
زادت القوة التصاحبية بينهما (أو القوة الاقترانية بينهما)ء بمعنى زيادة إمكانية 
وجود اقتران له دلالة بين هاتين الكلمتين. ولا يُستخدم اختبار زد (Z-score)‏ 
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كثيرًا في ale‏ الذخائر اللغويةء إلا أن هناك برمجية تسمى TACT‏ للفهرسة 
السياقية استعانت بتلك المنهجية. 
؟ - تطبيقات كمية المعلومات المتبادلة واختبار زد (Z-score)‏ 

الاستخدام الرئيس لهما هو استخراج الوحدات اللغوية GS fall‏ من أكثر 
من كلمة» ولا يشمل ذلك التعبيرات اللغوية الشائعة فقط مثل ' cock and‏ 
"bull‏ بل يمتد ليشمل التعبيرات الاسمية أيضباء مثل " temporal‏ 
"mandibular joint‏ فهذا الأخير يُعتبر تعبيرا اصطلاحيّاء وبجانب استخدام 
نتائج هذين الاختبارين في صناعة المعاجم» فإن Legh‏ استخدامًا مهما في 
مجال الترجمة؛ حيث يمكن من خلالهما بناء قاعدة معارف تفصيلية عن 
المصطلحاث المستختمة في مجال معين: 

أما ثاني أهم التطبيقات التي pd‏ فيها كمية المعلومات المتبادالة 
واختبار زد (Z-score)‏ فيتمثل في إمكانية المساعدة في إزالة اللبس اللغفوي 
gil, Word Sense Disambiguation)‏ لاك عليه اختصارًا (WSD‏ وهذا 
يختلف عن التطبيق السابق» لأننا في تلك الحالة نكون بصدد استخراج 
مجموعة التصاحبات اللغوية المألوفة لكلمة من الكلمات؛ فإذا أردنا أن Bas‏ 
أهم التصاحبات التي تأتي مع كلمة ماء فمن الممكن أن يكون ذلك في إطار 
الاحتمالات التالية: 

)١(‏ نجمع التصاحبات التي تشترك في كلمة واحدة في مجموعات» 
الأمر الذي يساعد علماء اللغة في التعرفٍ الآلي على المعاني المختلفة لتك 
الكلمة من خلال قائمة مفهرسة للتصاحبات. فكلمة "bank"‏ على سبيل المثال 
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يمكن أن تكون تصاحبًا لغويًا مع كلمات معينة في مجال الجغرافيا (مثل كلمة 
(river‏ ولكنها تكون تصاحبًا آخر مع كلمات مختلفة في مجال البنوك والمال 
(مثل كلمة (investment‏ ومن هنا يمكننا التمييز بين دلالتين مختلفتين لكلمة 
"bank"‏ وفي الوقت ذاته يتم إجراء مقارنة بين كلمتين مختلفتين من خلال 
علاقاتهما الاقترانية بكلمات أخرى للتعرف على مدى الاختلاف بين هاتين 
الكلمتين من حيث الاستخدام. وفي هذا الإطارء أجرى العالم ليتش 
N Leech:1992)‏ تجربة لمقارنة الاختلاف في الاستخدام بين الكلمتين 
«'strong’‏ و "powerful"‏ في اللغة الإنجليزية. فاستخدم نظرية المعلومات 
المتبادلة لاستخراج الاقترانات المصاحبة لكل من هاتين الكلمتين داخل 
الذخيرة اللغوية» وكانت النتيجة أنه اكتشف اختلاف هاتين الكلمتين من Cus‏ 
القدرة الاقترانية. فكلمة “strong”‏ تقترن مع كل من northerly’‏ 
و "behaviour" 9 showings’‏ و "currents"‏ و supporter"‏ وما إلى ذلك› 
أما كلمة "powerful"‏ فتقترن مع كلمات ‘minority’ 5 tool” J—ie‏ 
و “neighbor”‏ و "symbol‏ و "weapon" “figure”‏ وما إلى ذلك. وعلى 
الرغم من أن هناك بعض التصاحبات التي تم حصرها فإنه لا يمكن أن Sii‏ 
عليها اقتران بالمعنى الدقيق للكلمة؛ ولكن يمكن أن يتضح منها وجود 
اختلافات جوهرية بين هاتين الصفتين من حيث الاستخدام. 

وهناك استخدام آخر مهم لنظرية المعلومات المتبادلة:؛ ألا وهو 
المساعدة في دراسة العلاقة الدلالية بين ذخيرتين لغويتين متوازيتين ثنائيتي 
اللغة على مستوى الأسطر. فعلى فرض أن لدينا ذخيرتين ثنائيتي اللغة وتم 
عمل تواز Lagin‏ على مستوى الأسطرء بالإضافة إلى عمل تواز على 
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مستوى الجمل؛ بمعنى أننا يمكننا اختيار جملة ما داخل إحدى الذخيرتين» 
وتحديد الجملة المترجمة عنها في الذخيرة الموازية لها. فبناءً على ذلك؛ 
يمكننا عن طريق الحساب أن نتوصل إلى الكلمات وترجمتها داخل كل جملة 
من جمل الذخيرة. 

خامسسا: النماذج اللغوية 


١‏ - نموذج العنصر giga) N‏ الرتبة N-1‏ لماركوف) 
على فرض أن لدينا سلسلة من العلامات S‏ تتكون من عدد L‏ من 
العلاماتء وهذه العلامات على التوالي يرمز لها بالرموز M Marre‏ فإن 
النموذج اللغوي الذي acted‏ على تواتر تلك العلامات معا يرى أن احتمال 

ظهور عناصر السلسلة S‏ معا يُحسّب من المعادلة التالية: 


L 
P(S) = P(w,) P(w, | w)P(ws | ww). P(w, | wwa) - | ] 00 | Ww...) 


iz} 





eli aie y‏ فرض مستقل وفقا للمعادلة السابقة» بمعنى افتراض أن 
ظهور كل كلمة ” في السلسلة الكلامية 5 يرتبط فقط بالكلمة السابقة لها؛ 
التي تحتل الموقع 7-1 وذلك وفقا للصيغة ¬" Mere‏ بالإضافة إلى 
عدم وجود علاقة بينها وبين الكلمات الأخرى خارج نطاق 7-1. فيمكن 
التعبير عن المعادلة السابقة كما يلي: 


PES) = IPO wm) 


i=l 
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L 
= P(w,)P(w, | w)..-P(Wy- | 4...m)..Wy2)- [ [PO | W,...Wy1) 


Na 
Eia الوجدات اوي‎ ya N إن النماذج النخوية المكوّنة من عدد‎ 
.N-1 الانتقال بخطوة لماركوف‎ 
النماذج النحوية الأخرى الأكثر شيوعا؛ التي تنتمي إلى نموذج الانتقال‎ 
من الخطوات هي: نموذج الانتقال بخطوتين ونموذج الانتقال بثلاث‎ N بعدد‎ 
على التوالي. بمعنى أن احتمال ظهور أي‎ N=3و‎ (N=2 خطوات وذلك عندما‎ 
كلمة ينحصر فقط في ظهورها مع كلمة أو كلمتين سابقتين لها داخل النص.‎ 
عنها بالصيغ التالية:‎ fa) وعلى ذلك فإن معادلة حساب تلك الاحتمالات‎ 





معادلة حساب النموذج النحوي الثنائي: 


P(S) = P(w)[ [P | wa) 
1-2 


- معادلة حساب النموذج النحوي الثلاثي: 


P(S) = P(w)P(w, | w)] [PO | W271) 





-Y‏ نموذج ماركوف الكامن 
Hidden Markov Model (HMM)‏ 
نموذج ماركوف الكامن HMM‏ هو ائتلاف مجموعة من الحالات 
تربطها سلسلة من التحولات التي تكون دائمًا في إطار احتمالين: الأول هو 
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احتمال التحول (transition probability)‏ وهو الذي land‏ احتمال حدوث 
. هذا التحول» والثاني المتوالية المُعبّرَة عن كثافة مخرجات الاحتمال 
(PDF) (O Output Probability Density Function)‏ وهو الذي ci‏ 
احتمال خروج كل رمز من قائمة حروف أبجدية محدودة العدد كما يظهر لنا 
من الشكل (Y-Y)‏ 


3 لما‎ i 


E +4 


ee 


شكل (YP)‏ نموذج ماركوف كامن مبسط 
(حالتان» ورمزان (By ‘A Glade‏ 

التعريف الشكلي لنموذج ماركوف الكامن كما يلي: 

(أ) اقتران الحالة {S}‏ ويشمل حالة بداية Si‏ وحالة نهاية Sr‏ 

(ب) اقتران التحول }7{ حيث تعبّر © عن احتمال التحول من 
الحالة أ إلى الحالة FJ‏ 1 
1 ع4 ,3 ,0 < P(X, = J|X,=0,V,,j,a,‏ = 

J 
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(ج) التنظيم الاحتمالي للمخرجات {BO hd‏ حيث bi ga‏ عن 


Í في أثناء التحول من الحالة أ إلى الحالة‎ k احتمال ظهور العلامة‎ 
by = PUY, =k |X, =i Xa; Vir j,k,b; >0, 3b; 
k 





حيث تعر 2:74 في المعادلة السابقة عن أن الحالة J‏ تحدث في 
اللحظة Sa TK yt‏ عن ظهور العلامة k‏ في اللحظة /. 


وإذا كان لدينا نموذج ماركوف كامن HMM‏ يُطلق عليه M‏ فإن 
احتمال أن Jà‏ هذا النموذج سلسلة من العلامات Ss‏ عليها uiaj M‏ من 
خلال المعادلة التالية: 
P(Y) = SPA =x PY = y | xo = x7")‏ 


qit 





والمعنى المباشر لتلك المعادلة هو: حصر مسارات التحول في سلسلة 
العلامات OT‏ التي Las‏ بأطوال مختلفة من T‏ ويُرْمَز لها بالرمز A‏ 
(ويُطلق عليها Caj‏ اسم سلسلة ماركوف). بالإضافة إلى البحث عن احتمال 
حذوتهاء ومن بين ذلك فإن احتمال حدوث كل مسار من مسارات السلسلة 
* يتم حسابه من خلال الجمع بين احتمال التغير في هذا المسار بالإضافة 
إلى احتمال المخرجات. إن سلسلة ماركوف Seals X‏ العلامات Y‏ الخارجة 
منها جميعها تنشأ من نموذج واحد كامن لماركوف HMM‏ ولكن تسلسل 
المخرجات Y‏ يمكن مشاهدته مباشرةء أما تسلسل الحالات × فهو كامن 
.(hidden)‏ 


SHMM‏ وهما: 
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(Markov assumption) فرض ماركوف‎ 





P(X,,, = t+ |X; = x)= P(X = t+! |X, =x) 





حيث X i‏ فى المعادلة السابقة عن تسلسل الحالات» التي يرمز له 
بالرموز 21:47 . وفرض ماركوف i‏ عن أن احتمال وصول 
سلسلة ماركوف إلى حالة محددة لا يحدث إلا في اللحظة ؛ المرتبطة بحالة 


سلسلة مار كوف. 
الفرض المستقل عن المخرجات ) output-independence‏ 
:(assumption‏ 





PY, =x, |Y = yy Xp" = af") = PY, = 9, |X, =x, X 





rt = Xa) 


4 


حيث 355 bY‏ المعادلة السابقة عن سلسلة المخرجات TM Ny‏ 


إن الفرض المستقل عن المخرجات Gab‏ عن أن احتمال ظهور مجموعة 
علامات معينة في اللحظة ؛ يرتبط ارتباطا وثيقا بمقدار التحول (من ” إلى 
(m‏ الذي يحدث في اللحظة نفسها. 

وفي إحدى نماذج ماركوف الكامنة HMM‏ نجد أن احتمال توليد 
النموذج M‏ من السلسلة 77 يُحْسَب من المعادلة: 


7 
PN (2 D>, [PX LX, = (70 = 


altel + 











Y, | X, = Xp X a = m) 
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-Y‏ النموذج النحوي N pant‏ مقارنة بين كل من النموذج المُعتمد على 

HMM ونموذج ماركوف الكامن‎ « gail 

إن طريقة حساب النمط المُعتمد عل النحو للعنصر N‏ (نموذج TM‏ 
21-1 لماركوف) بسيط وعملي IS,‏ على نطاق واسع في تمييز 
الأصوات اللغوية والأنماط اللغوية في مجال اللغات الطبيعية. إلا أن أهم 
صفة تتميز بها اللغات الطبيعية هي الاتجاه نحو التركيب» وعلى العكس من 
ذلك نجد أن النموذج النحوي للعنصر N‏ ما هو إلا نموذجا لغويًا يعتمد على 
إظهار العلاقة بين العلامات بصورة خطيةء ولا يمكنه إلا تمييز العلامات 
التي تُعَبّر عن معلومات البنية السطحية للغة Sale)‏ ما يكون ذلك من خلال 
العلامات SE‏ عن الرموز والكلمات وأنواعها النحوية) وما بينها من 
مظاهر Jai‏ فقط عن علاقات التجاور في النصوص اللغوية؛ ومن YES‏ 
يمكنها استقراء حالات التراكيب اللغوية؛ ولذلك فإن النموذج النحوي للعنصر 
paii N‏ على نطاق مجدود في التعبير عن اللغات الطبيعية بطبيعتها 
المركبة. 

يُعتبر نموذج ماركوف الكامن HMM‏ هو الشكل Sb‏ من نموذج 
ماركوف التقليدي. فنموذج ماركوف التقليدي يكتفي بوصف التُول الذي 
يحدث لكل حالة من الحالات اللغوية بشكل عشوائيء أما نموذج ماركوف 
الكامن HMM‏ فيصف حدثين عشوائيين: الحدث العشوائي الأول يصف 
احتمال ظهور العلامة اللغوية والحالة التي تكون عليها؛ أي أن المُخرجات 
تكون Alla‏ في الحالة؛ أما الحدث العشوائي الثاني فلا يصف إلا علاقة JAN‏ 
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التي تحدث بين الحالات. وبالنسبة إلى المستخدم العادي» فإن ما يراه هو 
المخرجات فقطء ولا يمكنه أن يشاهد التحول الذي يحدث بين الحالات 
المختلفة؛ أي أن التحول بين الحالات oS‏ نموذج ماركوف 
الكامن HMM‏ يشبه الطرق التقليدية في حساب الاحتمالات P?‏ من حيث 
محدودية الحالات التي يمكن التعامل معهاء ومن ثم عدم إمكانية وصف 
مستويات التركيب المختلفة في اللغات الطبيعيةا*"!. 
4 - تطبيقات نموذج ماركوف الكامن HMM‏ في الذخائر اللغوية 

يمكن التعرف على التطبيقات الحقيقية لنموذج ماركوف الكامن HMM‏ 
في معالجة اللغات الطبيعية من خلال ما يتم في عمليات ترميز ذخيرة لغوية. 

وصف المشكلة 

نفترض أن لدينا سلسلة من الكلمات e W Wore Wr‏ ونريد توصيف تلك 
السلسلة من حيث الأنواع النحوية لها UConn‏ ونظرً! إلى انتشار ظاهرة 
اللبس اللغوي في تمييز الأنواع النحوية للكلمات» فمن الممكن أن يقابل 
السلسلة الواحدة من الكلمات عدة سلاسل من أنواع الكلمات»ء هذا بالإضافة 
إلى أن سلسلة أنواع الكلمات التي نريد الحصول عليها ستجعل قيمة المعادلة 
Wr)‏ ...و PROB ٩27 | Wis Wo‏ تعادل قيمة أكبر سلسلة من 
الأنواع النحوية للكلمات! !. 
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وباستخدام قانون بايز Bayes.‏ للاحتمالات يمكننا كتابة المعادلة 
السابقة بالصيغة التالية: 
PROB(w,, W2... Wr | C€3,...,€)X PROB(C,,C3,...,C;)‏ 





P(W,, Was... Wr) 
اننم معادلة‎ PROB(W, Was... Wr | Cis Canan €r) على‎ 
النمسوذج‎ PROB Cantr) المعلومات المتعلقة بالمفردات» ويُطلّق على‎ 
المتساوية فإن‎ CLAS اللغوي» ونظر! إلى ثبات المقام بالنسبة إلى سلاسل‎ 
المعادلة السابقة يمكن اختصارها إلى المعادلة التالية التي تخسب أكبر سلسلة‎ 
من أنواع الكلمات.‎ 






PROB(W,, W2... Wr | G1,C3,...,C7 ) X PROB(G; ccr) 
ويمكننا وضع مستوى أعلى من الفروض للمعادلة السابقة: إن احتمال‎ 
ورود الكلمة الحالية يتم التوصل إليه من النوع النحوي للكلمةء والنوع‎ 
النحوي لهذه الكلمة مرتبط فقط بنوع الكلمة السابقة لها. وفي النهاية يتم‎ 
التعبير عن الموضوع بالكامل من خلال المعادلة التالية:‎ 


7 
II 2) | Cyr Cayes Cj) P(W; | c) 


i=2 





7" =arg max p(w) p(w | (6)م ل‎ 





حيث تشير ١‏ إلى سلسلة الكلمات التي يتم ترميزها في النهاية» 
وتشير (.)2 إلى الاحتمال. 





)1( قانون بايز هو إحدى النتائج المهمة لنظرية الاحتمالات ويقوم بحساب التوزيع 
الاحتمالي الشرطي للمتغير العشوائي 8 بمعلومية المتغير العشوائي 8. (المترجم) 
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من المعادلة السابقة يمكننا أن نستخرج المستوى الأول والثاني من 
نموذج ماركوف الكامن Cus HMM‏ إن المستوى الأول لنموذج HMM‏ 
يُعَبّر عن أن النوع النحوي للكلمة الحالية لا يرتبط إلا بنوع الكلمة السابقة 
عليها. وتكون المعادلة بالتفصيل كما يلي: 


2 
T = arg max p(c,) p(w, le) [] pe, | .نوع ىن‎ ci) p(w; | ci) 


Clr monly i=2 





s 
° 


حيث تَعَبّر PCG Ninn)‏ عن احتمال تغير الحالة في نموذج HMM‏ 
POUL Ss,‏ عن احتمال توليد الكلمات. 

وبذلك يكون التعبير عن مسألة ترميز أنواع الكلمات قد تم من خلال 
أفضل صيغة لنموذج ماركوف الكامن HMM‏ ويمكن التأكد من صحة 
النتائج السابقة فيما يتعلق بحساب احتمال التغير في الحالة واحتمال توليد 
الكلمات من خلال دراسة ذخيرة لغوية سبق ترميزها. 


الفصل SIN‏ 
برامج الفهرسة وتطبيقاتها 


يقدم هذا الفصل تعريفا لبرمجيتين إحصائيتين يتم استخدامهما في 
تطوير الذخائر اللغوية قام بتطويرهما allel)‏ اللغوي سنكلير (Sinclair).‏ وتقوم 
هاتان البرمجيتان بعرض الكلمة التي يتم الاستعلام عنها مع السياقات التي 
وردت فيها الكلمة داخل الذخيرة في كل مرة وردت فيها. ويتمثل الاختلاف 
بينهما في أن كلا منهما تقدم المعلومات التي يتم الاستعلام عنها A‏ حسب 
jules‏ إحصائية تختلف عن الأخرى؛ وذلك لمساعدة المستخدم في تحليل 
الظواهر اللغوية. فبرمجية كولوكيت Collocate‏ تقوم بحساب الكلمات التي 
rr‏ توارد مع LEN‏ موضع ات a‏ مرا أما برمجية تيبيكال 
Typical‏ فتحسب التوارد مع الكلمة موضع البحث على مستوى السطر 
بأكمله بغض النظر عن تجاور الكلمتين معا. وقد تجاوزت النتائج التي حققتها 
هاتان البرمجيتان كل التوقعات eons a‏ كل Bie bee‏ عالية من 
حيث شيوع الاستخدام في مجال تطوير الذخائر اللغوية. ويشير المرجع "° 
بالتفصيل إلى العمل الذي قام به سنكلير من خلال هاتين البرمجيتين»ء وسوف 
نشرح ذلك بالتفصيل في الأجزاء التالية: 


أولاً: برمجية كولوكيت COLLOCATE‏ 


تقوم برمجية كولؤكيت Colllocate‏ بداية بحساب عدد مرات تكرار 
كلمة ما داخل جدول الكلمات المُفهؤْرس الذي تم استخراجه»ء بالإضافة إلى 
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احتمال ظهور تلك الكلمة داخل االذخيرة .اللغوية. cling‏ على هذه المعلومات 
تتمكن البرمجية من حساب درجة وضوح علاقة التصاحب بين هذه الكلمة 
وكلمة أخرى يتم تحديدها سابقا. والمقصود بمدى الوضوح هنا النسبة بين 
احتمال ظهور الكلمة GL all‏ لتكوين التصاحب داخل الذخيرة بأكملها وبين 
احتمال ظهورها داخل النص موضع الدراسة. 


-١‏ طريقة الحساب 

في البداية يتم حساب عدد مرات ظهور الكلمة المطلوبة Jala‏ الذخيرةء 
ثم تحب القيم المشاهدة والقيم المتوقعة لكل كلمة من الكلمات AL Sil‏ لكل 
سجل من سجلات الملف iN‏ وعند حساب التكرار يمكن اختيار إحدى 
الطرق التالية: بعد إهمال حالة الأحرف الكبيرة والصغيرة في الكلمات 
الإنجليزية المفردةء يمكن مراقبة نوع الكلمات بعد حذف علامات التصريف» 
ويمكن Lad‏ مراقبة الكلمات موضع الدراسة مع الكلمات التي تتصاحب معها 
ol gus‏ من جهة اليسار أو اليمين أو كلاهما Nee‏ 

المدخلات التي يتم الحساب عليها: ملف التحليل الإحصائي السياقي 
concordance file‏ عن سياقات الكلمة موضع البحث ينتج عن البرمجية. 
فعندما تظهر الكلمة موضع البحث داخل الذخيرةء تقوم البرمجية بإنشاء قائمة 
مز pane‏ عة هن Reto POR‏ تحتوي الكلمات التي تصاحبت مع تلك الكلمة 
المفتاحية يمينا ويسار! وفقًا لامتداد معين من الكلمات ah‏ عليه نافذة. 
وجميع السجلات المُحتواة في تلك القائمة يتكون منها ملف التحليل الإحصائي 
السياقي للكلمة -concordance file‏ ش 


WN 
WN 
Oo 


في البداية يتم الحصول على قائمة بها معدل تكرار جميع الكلمات عن 
طريق إحصاء يتم على ذخيرة واسعة النطاق. 

بعد ذلك يتم حساب درجة وضوح التصاحب التي يُشار إليها بالرمز 
5 بين الكلمة موضع البحث وجميع الكلمات الأخرى ويشار إليها بالرمز W‏ 
وتكون معادلة الحساب كما يلي: 


احتمال ظهور الكلمة w‏ داخل ملف 
الفهرسة 


احتمال ظهور الكلمة w‏ داخل الذخيرة 


بأكملها 





5 EF = fr CF cunus (w) IN corpus عو‎ OF = fi Ted nan (w)/ N pan È حد‎ 


و Pelaa‏ و ai Plame‏ كل منها عن عدد مرات تكرار الكلمة W‏ 
في ملف سياقات الكلمة وداخل الذخيرة بأكملها على التواليء أما Non‏ 
US Si Nome y‏ منها عن عدد الكلمات في ملف سياقات الكلمة والذخيرة 
بأكملها على التوالي. 
المخرجات: عند عرض المخرجات يتم ترتيب الكلمات المصاحبة 
٠‏ للكلمة التي يتم الاستعلام عنها By‏ للقيمة المحئذة لوضوح درجة التصاحب 
في المعادلة السابقة» ويحتوي كل سجل أربع خانات تضم المعلومات التالية: 
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|( التصاحبات: حيث عرض الكلمات التي يتوافق ظهورها مع الكلمة 


ب) عدد مرات تكرار الكلمة: حيث يُعرّض عدد مرات تكرار 
التصاحب داخل الذخيرة. 


ج) معدل التكرار المتوقع: حيث يُعرض معدل التكرار الاحتمالي 
المتوقع للتصاحب في إطار سياق له طول محدد. 

3( معدل التكرار الحقيقي: حيث يُعرض عدد مرات الظهور الحقيقفي 
للكلمات المتصاحبة مع الكلمة موضع البحث داخل ملف السياقات. 

وعند تنفيذ هذه العملية» يكون هناك اختياران: 

)١(‏ حساب أو إهمال خالة الأحرف. 

(Y)‏ حساب أو إهمال معلومات موضع الكلمة. وسوف يتم شرح تطبيق 
هذه العمليات من خلال الأمثلة الثلاثة التالية. على فرض أن الكلمة التي نريد 
الاستعلام عنها هي كلمة ols Carms®‏ طول السياق هو أربع كلمات»ء 
سيعرض الجدولان )1-1( (Y-T) y‏ النتائج كل على faa‏ مرة مع إغفال 
التغيرات الصرفيةء ومرة أخرى مع احتساب التغيرات الصرفية؛ حيث 
yn ja}‏ العمود الأول من كل جدول الكلمات التي ترد في حالة تصاحب مع 
هذه الكلمةء ويعرض العمود الثاني والرايع على التوالي عدد مرات ظهور 
الكلمة المتصاحبة مع كلمة "AFMS"‏ في كل من الذخيرة وملف السياقات على 
التوالي. أما العمود الثالث فيعرض قيمة وضوح درجة التصاحب التي تم 


كولوكيت Collocate‏ هي عرض النتائج مُجمّعة في كل عمود من الأعمدة. 
جدول :)١-7”(‏ مع إغفال التغيرات الصرفية 






عدد مرات ظهور الكلمة | 
المتصاحبة داخل ملف السياقات 


الكلمات المتصاحبة | عدد مرات ظهور الكلمة | قيمة وضوح 

















Caches 































































Outstreched 

66 0.248 Cache 

38 0.164 Cradled 
37 0.232 Flailing 
527 3.352 Embargo 
195 1.430 1462 Folded 
154 1.868 1910 Ammunition 
96 1.211 1238 Shipments 
60 0.789 807 Treaties 
594 8.320 8507 Legs 

116 1.703 1741 Waving 
23 0.400 ` 409 | Aloft 

21 

59 

30 




















جدول (۲-۳): مع اعتبار التحولات الصرفية 





عدد مرات ظهور الكلمة ‏ 















. الكلمات المتصاحبة عدد مرات ظهور الكلمة قيمة وضوح : 






















































مع كلمة ‘arms'‏ المتصاحبة في الذخيرة | درجة التصاحب | المتصاحبة داخل ملف السياقات 

21 0.431 441 

ا 
Cache‏ 329 0.322 96 
outstretched‏ 372 0.364 97 
Flail‏ 3791 3.708 556 
Ammunition‏ 1910 1.868 154 
Aloft‏ 409 0.400 23 
Fold‏ 4707 4.604 26 
f Cradle‏ 1085 1.061 53 

| 21 0.431 441 Buildup 
22 0.465 | 475 Torso 


Strategic 

















83 1.816 Fling 
343 8.011 8191 Reduction 
292 7.000 7157 Conventional 
a 
25 0.601 615 Gent 
لا‎ 
78 1.980 2024 Smuggle 
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من الجدول (Y-Y)‏ يمكننا ملاحظة وضوح درجة التصاحب بين كلمة 
"cashe"‏ وكلمة "arms"‏ بدرجة كبيرة؛ فقد وصل عدد مرات ظهور 
“cache”‏ داخل الذخيرة إلى ۳۲۹ مرةء ومن الجدول (VT)‏ يمكننا أن 
نلاحظ أن هذا الرقم يمثل مجموع ظهور كل من كلمتي “cache”‏ 
Jala "caches",‏ الذخيرة. فالتصاحبات اللغوية بين الكلمات داخل الذخيرة 
في الجدول (Y-Y)‏ قد تم حسابها بين الكلمات التي تظهر معًا بعد استتيعاد 
الإضافات الصرفية لكل كلمة. 

أما الجدول (Y-Y)‏ فيعرض معلومات عن التصاحب بين الكلمات من 
حيث موضع الكلمة المتصاحبة من الكلمة الأساسيةء وفي تلك الحالة احتوى 
الجدول عمودا إضافيًا هو العمود الخامس الذي يحتوي معلومات تشير إلى 
موضع الكلمة المصاحبة. ش 
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فول (9-"): يوضح اتجاه التصاحب (تصاحب أيسر 








































































































S Z عدد مرات‎ 
| | wenn [comet | لصي‎ se 
المصاحية‎ 3 o arms هه كلمة‎ 
س‎ lasai Sa | 
No left 27 0.073 75 Caches 
No right | 36 0.164 | 168 Cradled 
Left 65 0.364 | 372 | Outstretched | 
discarded 
Left 488 3.352 3427 Embargo 
discarded 
= 66 | 0.248 | 254 | Embargo 
No left | 153 1.868 | 1910 | Ammunition 
No left 57 0.789 | 807 | Treaties 
195 1.430 | 1462 Folded 
No left 82 1.211 | 1238 Shipments 
No right 105 1.703 | 1741 Waving 
No left 23 0.400 409 Aloft 
Left 468 8.320 | 8507 Legs 
discarded هه‎ 
No right | 249 5.587 | 2 Strategic 
No left 82 1.847 1888 Reductions 
No right 122 2.817 | 2880 Lifting | 
No right 276 7.000 7157 Conventional 
No left 241 | 6.165 | 6303 | Reductions 
No right 50 1.282 1311 Supplying 
No right 44 1.150 | 1176 | Flung 
No left 33 0.911 | 913 Negotiator 
No left 40 1.229 1257 Explosives 
Noleft | 22 0.721 | 7371 Shipment 
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تشير "no left”‏ إلى أن التصاحب قد تم من جهة اليمين» "no right” Ud‏ 
فتشير إلى أن التصاحب قد تم من جهة اليسار. وإذا كان عدد مرات ظهور 
الكلمة المتصاحبة في جهة من الجهات أكبر من ثلثي قيمته في الجهة 
الأخرىء يتم إهمال التصاحب على الجهة الأخرى التي تحقق عدد مرات 
تصاحب أقل. ويشير JS‏ من "right discarded’ » cleft discarded”‏ إلسى 
جهة التصاحب التي تم إهمالها سواء كانت جهة اليسار أو جهة اليمين. Lid‏ 
إذا كان الفرق غير كبير بين عدد مرات التصاحب في الجهتين فتترك الخانة 
المخصصة لذلك فارغة. 


ثانيًا: برمجية TYPICAL‏ 


تعتمد برمجية تيبيكال Typical‏ أساسًا على حساب درجة وضوح 
ظهور الكلمات معا في سطر الفهرسةء ويُستخدم ذلك في تقدير درجة وضوح 
تكرار سطر الفهرسة بأكمله» ويساعد ذلك في استخراج أمثلة واقعية ذات 
طبيعة خاصة من داخل الذخيرة. وتكون مدخلات البرمجية عبارة عن ملف 
. توافق وقوع عن كلمة من الكلمات الموجودة في الذخيرةء بالإضافة إلى 
جدول عن معدل تكرار كل كلمة من الكلمات داخل الذخيرة. وبعد ذلك» تقوم 
البرمجية بمعالجة كل سطر من أسطر الملف المفهرس gatis‏ أفضل 
سطر يمثل الشكل القياسي للاستخدام. كان التصميم المبدئي لتلك البرمجية 
يهدف إلى محاولة البحث عن الأمثلة النموذجية التي تمثل الاستخدام الحقيقي 
للغة؛ وذلك كي تكون أداة مساعدة للمعجميين في صناعة المعاجم؛ حيث 


as و‎ 


تمكنهُم من البحث عن أمثلة لغوية حقيقية ذات موثوقية. إلا أن استخدام تلك 


235 


البرمجية على أرض الواقع أسفر عن استخدامات AÍ‏ رحابة لم تكن متوقعة 
في مجال إزالة اللبس الدلالي بين الكلمات. 

من أحد الفروض التي تم استخدامها في تصميم هذه البرمجية: وجود 
درجة معينة من التجاذب بين كل كلمة والكلمات المحيطة بها. ومن هنا فإن ` 
هذه االبرمجية تهدف إلى استخراج جميع التصاحبات اللغوية التي يكون بينها 
وبين الكلمة موضع البحث قوة جذب. 
١‏ - طريقة الحساب 

المدخلات: 

)١‏ جدول تكراري للكلمات داخل ذخيرة واسعة النطاق. 

(Y‏ ملف توافق وقوع عن الكلمات المصاحبة للكلمة موضع البحث يتم 


استخراجه من الذخيرة. 


المخرجات: 

ملف توافق وقوع يتم ترتيبه على أساس درجة القيم المطلقة لكل سطر 
من أسطر الملف المفهرس. 

الخطوات: 


4 a 


إذا تجاوزت أي كلمة ‏ في سياق أحد أسطر ملف السياقات قيمة 
معينةء يتم الحساب وفقا للمعادلة التالية: 
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x= E = freq pan (w; ) | fi C4 corpus (w; ) 
i R N span N corpus 


. حيث تشير 7 إلى معدل التكرار النسبي لعدد مرات ظهور الكلمة Wi‏ 
في سياق له طول محددء أما Fe‏ فتشير إلى معدل التكرار النسبي للكلمة '” 
داخل الذخيرة بأكملهاء أي قيمة تكرار الكلمة في الجدول التكراري للكلمات. 

وبعد ذلك يتم استخدام قيمة زد 2-5-07۴ في عمل تصنيف للنتيجة 


كما يلي: 





حيث تشير "7" إلى قيمة محددة تزيد عن حساب نتيجة "2" لجميع 
الكلمات التي تتواتر معًا. ولحساب قيمة 5 لكل كلمتين متصاحبتين يتم تطبيق 
المعادلة التالية: . 





حيث تشير "5" إلى قيمة الانحراف المعياري ويتم حسابها من المعادلة 
التالية: ا 





وفي النهاية يتم جمع قيمة "5" التي تنتج من حساب درجة التصاحب 
بين جميع الكلمات الواردة في السجل المُفهْرس مع الكلمة موضع البحثء 
فنحصل على قيمة رقمية عن هذا السجل يُطلق عليها القيمة القياسية لهذا 
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السجل. ثم ثُرتب السجلات تنازليًا حسب القيمة القياسية لتصاحب الكلمات 
الواردة في السجل مع الكلمة موضع البحث. ويكون شكل المخرجات التي 
تقدمها البرمجية عبارة عن قائمة مكونة من مجموعة من السجلات يحتوي 
كل منها الكلمات التي تتصاحب مع الكلمة موضع البحث» وأمام كل مسجل 
تظهر القيمة القياسية لهذا السجل والسجلات المفهرسة التي تتمتع بقيم قياسية 
متساوية يتم ترتيبها أبجديًا. 

وهنا نود الإشارة إلى أن القيمة القياسية لسجل مفهرس عبارة عن 
تجميع نتيجة 2 لكل تصاحب داخل هذا السجلء الأمر الذي يعكس شل كل 
عنصر من العناصر المكونة لهذا السجل. وإذا احتوى السجل المفهرس كلمة 
لها نتيجة ">" كبيرة» وكانت القيمة القياسية لهذا السجل مرتفعة؛ فإن 
السجلات المفهرسة الأخرى التي تحتوي كلمات لها قيمة "2" نفسها تكون لها 
القيمة القياسية نفسها. إلا أنه من عيوب استخدام الانحراف المعياري ما يلي: 
عندما يتساوى معدل تكرار بعض الكلمات مع متوسط عدد مرات ظهور هذه 
الكلمات فإن نتيجة "2" لهذه الكلمات تساوي صفرا. ومن أجل التغلب على 
تلك المشكلة» قام سنكلير بحذف السجلات المفهرسة التي لها قيمة قياسية 
مرتفعة؛ التي ترد في مقدمة قائمة السجلات المفهرسةء وبعد ذلك قام بإعادة 
خطوات الحساب السابقة في استخراج قائمة سجلات مفهرسة جديدة لها قيمة 


قياسية مرتفعة. 


؟ - مثال 
TEC ae a es aa‏ 
تصاحبات بعض الكلمات» ففي البداية تم تحديد كلمة dhot‏ ككلمة لها عدد 
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من YYA‏ فمن الممكن أن تعبر عن ارتفاع درجة حرارة الجوء أو عن 
مذاق حرتيفء أو أكل طازجء وما إلى ذلك. 

وفي هذا السياق تقوم برمجية تيبيكال Typical‏ بترتيب ملف السياقات 
المستخرج لكلمة Uy "hot‏ للقيمة القياسية لكل سجل من سجلات الملف؛ 
حيث تقوم بوضع السجلات التي تحتوي تصاحبات متشابهة معا على التوالي 
lit,‏ لنتيجة "2". og yay‏ البرمجية عملية البحث واستخراج سجلات ملف 
السياقات في سياق طوله ثلاث كلمات قبل وبعد الكلمة موضع الدراسةء على 
ألا تقل عدد مرات تكرار التصاحب داخل ملف السياقات عن سبع مرات. 
وفي النهاية تم استخراج ملف توافق وقوع كلمة “hot”‏ بالإضافة إلى جدول 
معدلات التكرار لتصاحبات هذه الكلمة من ذخيرة إنجليزية تضم مائتي مليون 
كلمة. ويبين الشكل (7-") التالي نتيجة البحثء Vale‏ أن الرقم الموجود في 
أول كل سجل يُشير إلى الرقم القياسي لهذا السجلء US‏ السجل المُفهْرس نفسه 
فيتم وضعه بين العلامتين <>. 


239 


19476.18 <asackful of guitas shaped like red hot pokers that 
stab the songs through> 


19476.18 < a sackful of guitars shaped like red hot pokers! 
Visual fireworks: STEVE> 


19476.18 < paims and pampas grass among the red hot 
pokers seem like a feasible and> 


19474.55<like lupins and delphiniums, red hot pokers 
(Kniphofias), mullein> 


19474.55< had gardens with raspberries and red hot pokers. 
Once we spent a week in the> 


19474.55 <their weed-choked snapdragons and red hot 
pokers. If they ask about it,smile> 


15446.13 <doctors found it helped dry vagina, hot 
flushes,sweats, ftension, anxiety and> 


15082.65 <Problems of the menopause such as hot 
flushes,night sweats, dry vagina> 


15076.28 <<FCH>sympyoms, which include hot . 
flushes,sweats, tingling, and> 


15070.74 <in particular can help with hot fushes, night 
sweats, vaginal> 


13807.29 <an urgent need for the bathroom, hot and cold 
flushes and pins and> 


13790.39 <turn white and that know what I mean. Hot and 1 
cold flushes and that> <M01> Was> 


13790.39 <and pins and needles <FCH><M38><FCH> hot 
and cold flushes, sweating,> 


- 13579.00 <service was held on a blisteringly hot day. When 
the body was lifted from> 


13574.27 <<LTH>Sunday was blisteringly hot with cars and 
drivers alone> 
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13539.29 <designed to combat such blisteringly hot days 
whereas Malcolm roars like an> 


13517.17 <said: We have enjoyed a blisteringly hot June, 
along with Scandinavia, the> 


9875.08 <in. This is especially a danger in hot and hummid 
climates, such as the> 


9866.32 <known as‘dropouts’, when played in hot and 
humid climates><LTH>Examination> 


9676.71 <Phil found himself slaving over a hot grill at 
minimum wage while being> 


9027.15 <Summers can be unbearably hot and humid and 
the scenery is flat> 


8424.17 <<CQI> I don’t like slaving over a hot stove cooking 
a good meal and> 


8341.5 <we spent hours lovingly slaving over a hot stove 
making, it’s hardly surprising> 


8334.75 <but when you are slaving over a hot stove in the 
kitchens of the Hotel> 


8334.75 <<t>WOMEN spend hours slaving over a hot stove 
in the kitchen but are banned> 


eee eee eee ووم‎ 


8135.44 <driving the criminals ’ favourite hot hatchbacks 
cars # who face increases> 


7822.09 <rising insurance costs,even more ‘hot hatchbacks’ 
like the new Citroen ZX> 


7820.46 <aming the new Classics are the hot hatchbacks and 
homologation specials> 


7820.46 <will go straight into group 20, and hot hatchbacks 
can expect to see their> 


7820.46 <born by those owning what they call hot hachbacks 
and sports cars. Er the> 
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7816.97<on 45 high-risk models, mostly hot hatchbacks, was 
swift. New Escort RS> 


7356.70 <display, and where summers can be hot and 
humid, sow in September where> 


7120.72 <sheets (The dough is soft, so in very hot or humid 
weather, refrigrerate it for> 


7174.93 <tin.<t> Baking Note: <FCH> In very hot or humid 
weather, or if your kitchen> 


7037.53 <a day four days in weather so hot and humid that 
several men died. He> 


7035.44 <and miantain a humid atmosphere in hot weather. 
Keep it shaded form the> 


7020.37 <is partly affected by the weather. On hot humid 
days large amounts of pollen> 


7005.79 <attack even without exercise. Very hot or humid 
weather will make it> 


5465.49 <down because you stay dry and have a hot toddy 
when you get home> 


5462.31 <a sherry at the theatre bar, or a ‘hot toddy’ to keep 
the cold at bay.> 


5448.56 <He dipped his tiny beak into a hot toddy after this 
series of knight’s> 


5448.26 <you head off down the slopes- it’s a hot toddy with — 
an extremely potent kick> 


5440.70 <but the Club were as cheering as a hot toddy>- 
Even though they seemed> 


5414.71 <leader Paddy Ashdown, branded the ‘hot toddy’ 
budget as a cynical manoeuvre> 


شكل (7-"): نتيجة الاستعلام عن كلمة "hot"‏ 
مُفهرسة تنازليًا حسب الرقم القياسي 
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يقدم الشكل (Y-Y)‏ نتيجة الفهرسة لكلمة "hot‏ وفقا للقيمة القياسية لكل 
سجل. ومن هذا الشكل يمكننا ملاحظة أن أكثر تصاحبات تحتوي كلمة "hot?‏ 
هي hot flushes"‏ و "hot and humid"‏ وما إلى ذلك. ويمكننا أن نلاحظ 
كذلك أن أي تغير كبير في القيمة القياسية لسجلات الفهرسة يشير إلى 
استخدام جديد لكلمة hot"‏ ولذلك فإن التغير الذي يحدث في القيمة القياسسية 
لسطر الفهرسة يمكن أن يشير إلى بداية ظهور استخدام جديد للكلمة موضع 
البحث. 


*- أثر مجموعة المتغيرات التي تحتاجها البرمجيتان على عمليات التحليل 

: er 

قبل استخدام البرمجيتين الإحصائيتين سالفتي الذكرء ell‏ من 
المستخدم إدخال عدد من المتغيرات اللازمة للبرمجية؛ مع تحديد اسم 
البرمجية المستخدمة «(Typical al Collocate)‏ وبعد ذلك يقوم المستخدم 
بتحديد الكلمة موضع الدراسة وعدد السجلات التي سيحتويها ملف الفهرسة؛ 
التي سيتم حساب النتائج على أساسها؛ ذلك GY‏ النتائج تختلف bs‏ لاختلاف 
حجم الملفات التي يجرى التحليل عليها. هذا بالإضافة إلى ضرورة تحديد 
طول النص قبل الكلمة موضع البحث وبعدهاء وأقل قيمة لعدد مرات ظهور 
التصاحبات في إطار هذا الطول. وفيما يلي نعرض بعض الخبرات التي 
اكتسبها سنكلير من استخدام هاتين البرمجيتين. 

)١(‏ حجم ملف المدخلات 

ليس هناك حدود تتطلبها برمجيتا الإحصاء تجاه حجم نص Â jl‏ 
فكلما زاد حجم نطاق ملف الفهرسة زادت مصداقية النتائج. وتشير الجداول 
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و(-1) إلى النتائج الإحصائية للتصاحبات؛ التي تم 
التوصل إليها عن طريق استخدام برمجية كولوكيت rm "Collocate’‏ 
تحتوي ٠ Yarrr‘ Orra‏ سجل على التوالي» ففي 

ذلك الا ار BE‏ و ah‏ 


(0-0); ‘(i—Y) 


ملفات فهرسة ت 


تيجا التطيل iis yi‏ ف سين يري 


















جدول Y)‏ -4): نت 






































































































الكلمات المتصاحبة مع عدد مرات ظهور الكلمة المتصاحبة. 

كلمة hot‏ م الذخيرة _ | Alai‏ . داخل ملف السياقات 
Contorted‏ | 161 0.039 11 
Flushed‏ | 691 | 0.167 11 
Grin‏ | 1329 0.321 19 
Mask‏ 2221 0.536 26 
Fines‏ 1260 0.304 11 
Starvation‏ 1421 0.343 12 
Smile‏ 7371 1.780 54 
Staring‏ 2677 0.646 | 19 
Brave‏ 3549 0.857 22 
Pale‏ 4456 1.076 27 
Expression‏ 5760 1.391 31 
Smiling‏ 3123 0.754 14 
Handsome‏ 3263 0.788 13 
Charges‏ 5 | 3.660 60 
Face‏ 49108 11.860 185 
Tears‏ 2 5429 1.311 19 
Buried‏ 4079 0.985 13 
Neck‏ 7236 1.747 22 
Touched‏ 3993 0.964 11 
Prospect‏ 6612 1.597 17 
Value‏ 21732 5.248 56 
Thin‏ 7341 1.773 17 
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جدول (”5-7): نتيجة التحليل على عدد ٠٠٠٠١‏ سجل مفهرس 
© كلمة E ‘hot’‏ 5 السياقات ‏ 
Volte |‏ 69 0.067 23 | 
a 0.159 | 165‏ 29 
Impassive‏ 171 0.165 24 
Contorted‏ | 161 0.156 2 
Sallow‏ 117 0.113 12 
Ashen‏ — 120 0.116 12 
Adversity‏ 392 0.379 34 
Creased‏ 163 | 0.157 14 | 
Flushed‏ 691 0.668 51 
Craggy‏ 167 0.161 11 
Frown‏ 415 0.401 24 
Haggard‏ 260 0.251 
Shadowed‏ 234 
Slap‏ 910 
Tanned‏ 499 
Slapped‏ 764 
Bony‏ 308 | 0.298 14 
Brightened‏ 282 | 0.272 12 
Streaked‏ 284 0.274 12 
Ruddy‏ | 285 0.275 11 
Screwed‏ 634 0.612 23 
Beaming‏ 420 0.406 | 15 
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dy‏ نتيجة التحليل على عدد dau ٥۰‏ مفهرس 


Tee 
A عدد مرات ظهور الكلمة قيمة وضوح درجة‎ 
8 المتصاحبة في الذخيرة التصاحب‎ 













Volte 
Barroom 
Expressionles | 
S 
| Eiger | 
Contorted 
Impassive | 
Broderick 
Ashen 
Puckered 
Reddened 
Blotchy 
Freckled 
Creased 
Redder 
Puffy ٠ 
Adversity 
Flushed 
Sallow 
Slap _ 
69 Sunburned 


| 170 一 上 -一 
| 167 Craggy | 
ونلاحظ من الجداول الثلاثة السابقة أن التصاحبات‎ 

التي تم استخراجها من ملف الفهرسة الأكبر حجما لها 
مصداقية أعلى. 

(۲) طول السياق 


يُعْتَبّر طول السياق هو أحد المتغيرات التي يطلب من المستخدم 
تحديدها. غالبًا ما يتم تحديد السياق في اللغة الإنجليزية بأربع كلمات قبل 
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الكلمة موضع البحث وبعدها. فالسياق المصاحب للكلمة هو أحد مؤشرات 
المعنى لهذه الكلمة. فإذا كان لدينا كلمة متعددة الدلالة» فإن السياقات التي ترد 
فيها هذه الكلمة من الممكن أن Jd‏ عن معاني تلك الكلمة في حالاتها الدلالية 
المختلفة. ولذلك فإن هناك ضرورة لتحديد السياق المؤثر في الكلمة والذي 
يشير إلى عدد الكلمات التي ترد قبل وبعد الكلمة موضع الدراسة؛ وذلك من 
أجل اختيار طول السياق الذي يُقذم أفضل نتيجة للتحليل. 

فإذا استخدمنا برمجية كولوكيت Collocate‏ في دراسة كلمة cÂ isma‏ 
وفي كل مرة من مرات الاستخدام نقوم بتغيير طول السياق» ونحتفظ بباقي 
المتغيرات دون تغييرء سنجد أن المخرجات التي تقدمها البرمجية تختلف في 
كل مرة. ويشير الجدولان (AMM) (Y-Y)‏ إلى نتيجة العمل على كلمة 
seye"‏ وذلك من خلال ملف فهرسة طوله ٠٠٠٠‏ سجلء على ألا تقل عدد 
مرات تكرار التصاحب عن ٠١‏ مرات؛ ولكن مع تغيير السياق؛ حيث يشير 
الجدول الأول إلى النتيجة Laie‏ يكون طول السياق كلمتين قبل كلمة "eye"‏ 
وبعدهاء والجدول الثاني عندما يكون السياق 5 كلمات قبل كلمة eye”‏ 
وبعدها. وفيما يلي نعرض نتيجة تشغيل البرمجية على السياقين المختلفين. 
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جدول (۷-۳): نتيجة التشغيل على سياق طوله 
كلمتين قبل كلمة "eye"‏ وبعدها 






























































































































الكلمات المتصاحبة مع | عدد مرات ظهور الكلمة 
كلمة "eye"‏ المتصاحبة في الذخيرة 
Beady‏ 99 0.012 12 
o 346 Watchful‏ | 3 | 
Remover‏ 174 0.021 14 
Untrained‏ 249 0.030 13 
Sockets |‏ 296 0.036 12 
Socket‏ 464 0.056 12 
Blind‏ | 4941 0.097 81 
Catches‏ 1607 0.194 21 
Naked‏ 3486 0.421 40 | 
Gel‏ 1054 0.127 | 12 
Caught‏ 14201 1.715 133 
Eagle‏ 1912 0.231 18 | 
Witnesses |‏ 3304 0.399 25 
Eye‏ 16359 1.975 121 
Keeping‏ 12294 1.485 76 
Meets‏ 5019 0.606 29 | 
Contact‏ 16184 1.954 90 
Patch‏ 2173 0.262 11 
Witness‏ 4342 0.524 21 
Catching‏ 2510 0.303 12 | 
Keep‏ 48681 588 | 211 
Catch‏ 8595 1.038 36 
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جدول ۸-٣‏ نتيجة التشغيل على سياق طوله ست 
كلمات قبل كلمة "eye"‏ وبعدها 



































































































الماك المتصاحبة مع كلمة | i | BES‏ وضوح درجة | ا 
oye‏ في الذخيرة . الصاح | دون ملف diet‏ 
Beholder‏ 119 | 0.043 24 
Beady‏ + 9 0.036 13 
Remover‏ 174 0.063 20 
Watchful‏ 346 0.125 36 
Glint‏ 241 0.087 21 
Twinkle‏ 249 0.090 18 
Contour‏ | 195 0.071 13 
Retina‏ 221 00 | 14 
Untrained‏ 249 0.090 13 
T 295 Glam‏ 0.107 14 
Sockets‏ 296 0.107 12 
Blink‏ | 397 0.144 15 
Socket‏ 464 0.168 16 
Gel‏ 1054 0.382 20 
Blind‏ 4941 | 1.790 90 
Catches‏ 1607 0.582 26 
Eye‏ 1 16359 | 5.926 242 
Makeup‏ 826 0.299 12 
Naked‏ 3486 1.263 
Caught‏ | 14201 5.144 
Keeping‏ 12294 4.454 18 
Eagle‏ 1912 

















ويمكننا أن نلاحظ أن الكلمات المتصاحبة مع كلمة "eye"‏ مثل 


‘beady‏ و ‘watchful‏ و "remover"‏ وغيرها لها نسبة ظهور واضحة في 
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الجدولين» فضلاً عن أن بعض الكلمات التي لها درجة تصاحب عالية فسي 
الجدول fie) (Y-Y)‏ الكلمات Y (‘witness's "patch"‏ تظهر في الجدول 
(A-Y)‏ أو أن لها درجة تصاحب ضعيفة. والسبب في ذلك يرجع إلى كون 
الكلمات التي لها درجة تصاحب عالية من خلال السياق الذي يبلغ طوله 
كلمتين ستظهر في السياق الذي يبلغ طوله ست كلمات. ومن هناء فإن درجة 
التصاحب الواضحة لهذه الكلمات في السياق الأقل سوف tc‏ بسبب 
تأثير الكلمات الموجودة في السياق الأكبر في نتيجة المعادلة. هذا بالإضافة 
إلى أن .الكلمات التي لها درجة تصاحب أعلىء أو تلك التي تتمتع بحرية 
سياقية كبيرة سيتم الاحتفاظ بها في جدول التصاحبات ES‏ من السياق 
الذي يبلغ طوله ست كلمات؛ وذلك مثل كلمة “patch”‏ التي لا تظهر إلا بعد 
كلمة seye"‏ ولذلك فقد ضعفت قيمة تصاحبها مع كلمة "EYE"‏ بسبب الكلمات 
.التي تظهر دائمًا مع كلمة eye”‏ في سياق الست كلمات. وفي الجدول (*- 
(A‏ نجد أن كلمة "beholder"‏ لها درجة تصاحب عالية مع كلمة eye”‏ 
ولكنها لم تظهر في الجدول Y-F‏ وذلك بسيب أن كلمة "770106656 m2‏ 
دائمًا في التعبيرة "in the eye of the beeholder‏ ففي هذه الحالة 
نلاحظ أن كلمة "beholder‏ ظهرت خارج إطار السياق So‏ بكلمتين مع 
كلمة "eye"‏ وحتى يمكن التغلب على هذه الظاهرة»ء يمكننا إضافة معلومة 
تحدد موضع كلمة التصاحب من الكلمة موضع البحث عند اس تخدام 
البرمجية» على سبيل المثال الاكتفاء بالكلمات التي تأتي بعد الكلمة موضع ٠:‏ 
البحث أو قبلهاء ففي تلك الحالة سترتفع درجة وضوح التصاحب. 


)1( الحد الأدنى لعدد مرات ظهور التصاحب 

إن الحد الأدنى لعدد مرات ظهور التصاحب هو تحديد أقل قيمة لعدد 
مرات ظهور التصاحبات التي تتم عليها عملية الحساب داخل ملف السياقات. 
وقيمة هذا المتغير تتحكم بشكل مباشر في عدد التصاحبات التي تقوم 
البرمجية بانتخابها. فإذا كانت حدود هذه القيمة ضعيفة» فسوف تستغرق 
البرمجية وقت تشغيل أطول» وقد ينتج عن عملية التشغيل وجود ua‏ 
الأخطاء في النتائج؛ وعلى العكس من ذلكء إذا كانت تلك القيمة كبيرة 
فسوف يؤدي ذلك إلى إهمال التصاحبات التي لها نسبة ظهور واضحة. 

إن الغرض من تحديد عدد مرات ظهور التصاحب بأقل قيمة هو 
استبعاد الكلمات التي بها خطأ في الكتابة أو أسماء الأعلام وغير ذلك من 
الكلمات التي تظهر مرة أو مرتين داخل الذخيرة. ويمكننا أن نلاحظ من 
الجدول رقم ٩-۳‏ أهمية تحديد عدد مرات ظهور. التصاحب بأقل قيمة. 
ويمكننا أن نكتشف من الجدول أن الكلمات الأكثر تمثيلاً للقوة التصاحبية مع 
كلمة "hard"‏ قد ظهرت مرتين في مجمل الذخيرة» وعلى الرغم من أنها 
ظهرت مرة واحدة في تصاحب مع كلمة Nard”‏ فإن هذه الكلمات تتمتسع 
بدرجة تصاحب عالية مع الكلمة موضع البحث. Badiy‏ من الجدول Kad‏ 
أن كلمة "9807617 بها خطأ في الكتابة؛ حيث ينقصها مسافة فارغة في 
الوسطء والكتابة الصحيحة لها هي „get them'‏ 


جدول (”1-7): تأثير تحديد عدد مرات ظهور 
التصاحب بأقل قيمة في نتيجة البرمجية 








الكلمات المتصاحبة | عند مرات ظهور Lasi‏ | يها © we‏ مراك ظهور Asstt‏ 
مع كلمة chard’‏ | المتصاحبة في الذخيرة | رر | المتصاحبة داخل ملف السياقات 









Anie 
Bogna 
Endochorion 
Getthem 
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Givada 





Hipp 
Kinjiro 
Korbel 
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Leinoff 


Lektropaks 


























Mogulled 
Pittesburg 
Pogrebnjak 
Sarit 





= Leshenka 
Maternite 
at 











Shirtlifter 








he Spener 


Tolars 





Trancepotter 














pm | خسم‎ | pam | شم | شم | شم | شم | تسم‎ | ph | jm | pk |] pam | pk | | تم | تم | تم‎ | pk | dh 
NI N انم‎ NIN) NIN) انم‎ NY) NY) NY) NY) ايع‎ VY! DY! ايم‎ NY! ايع ايع ادع‎ RQ 








Weasling 





وبصورة ule‏ فإن قيمة المتغير الذي يتم إدخاله» ينيغي أن تتغير تبعًا 
لتغير طول السياق. فعندما يكون طول السياق قصيراء تكون تلك القيمة قليلة؛ 
وتزداد هذه القيمة تدريجيًا مع زيادة طول السياق. 
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الفصل الرابع 
ترميز الذخائر اللغوية 


إن تجميع عدد كبير من النصوص في لغة ما وتخزينها في الحاسب 
الآلي. OS‏ ذخيرة لغوية هائلة الحجم. وبعد عملية التجميع» يسعى الباحثون 
إلى استخراج المعلومات التي يحتاجون إليها من هذه الذخيرة؛ على سبيل 
المثال إنشاء مُعْجَمم لغوي أكثر جودةء أو دليل نحوي يعتمد على بيانات لغوية 
واقعية؛ وذلك من أجل فهم اللغة واستخدامها بشكل سليم وناجح. ولكي يمكننا 
استخراج المعلومات من الذخائر اللغوية المختلفةء فمن الضروري البدء بعمل 
تحليل للذخيرة اللغوية على مستوى واحد أو على عدة مستويات» بالإضافة 
إلى ترميز العناصر التي تنتج عن عملية التحليل داخل متن الذخيرة اللغويةء 
ومن PB‏ إعطاء قيمة مضافة أعلى إلى الذخيرة. وهذا ما giy‏ عليه ترميز 
الذخائر اللغوية. إن عمليات ترميز الذخائر اللغوية تم قبولها على نطاق واسع 
باعتبارها المدخل الأساسي للتعامل مع الذخائر اللغوية. ويناقش المرجع رقم 
[0A]‏ بالتفصيل منهجيات ترميز الذخائر اللغوية على عدة مستويات لغوية» 
ونظرا إلى أن سلسلة الكتب الأخرى التي نقدمها في هذا المجال بها شرح 
لمنهجيات ترميز الذخائر اللغوية الصينيةء فلن نتناول في هذا الجزء طريقة 
الحساب المتعلقة بترميز الذخائر اللغويةء وسنكتفي فقط بتناول الموضوع من 
حيث معنى الترميزء ونماذج الترميز وأنواعه. | 
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أولاً: معنى ترميز الذخائر 

يمكن تعريف ترميز الذخائر اللغوية كما يلي: هو نوع من التطبيق 
يهدف إلى إضافة معلومات لغوية ومعلومات توضيحية للذخائر الشفهية أو 
التحريرية. ومن الممكن أن تشير كلمة 'ترميز" إلى المنتج النهائي لهذه 
العملية: بمعنى العلامات اللغوية الملحقة بالذخائر اللغوية أو التي تتناثر وسط 
الذخائر اللغوية. ويُقصد بتلك العلامات اللغوية علامات المقاطع الصوتيةء أو 
العلامات النحوية» أو الدلالية وما إلى ذلك. ونظرًا إلى أن اللغة الصينية 
المكتوبة لا تحتوي مسافات فاصلة بين حدود الكلمات» فإن عملية ترميز 
الذخائر اللغوية الصينية تشمل مرحلة إضافية تهتم بترميز حدود الكلمات» 
وعادة ما يُستخدم لهذه المرحلة من الترميز مسافة فارغة بين حدود كل 
كلمتين. إن أشهر مثال في عمليات ترميز الذخائر اللغوية وأكثرها قياسية هو 
الترميز النحويء Gy‏ عليه أيضًا ترميز الأنواع النحوية للكلمات أو ترميز 
POS‏ ففي عملية الترميز هذه يتم إضافة علامة أمام كل كلمة من كلمات 
الذخيرة من أجل تحديد نوعها النحوي. فعلى سبيل المثال 公布 /vgn‏ حيث 
نجد أن علامة vgn"‏ تشير إلى أن الفعل AA‏ ويعني lel‏ فعل متعم 
لمفعول اسمي. ش 

والسبب في قولنا: إن الترميز يحمل معلومات توضيحية هو أن 
الترميز في أقل تقدير عبارة عن gih‏ يحمل فهم الإنسان للنص موضع 
الترميز. فترميز النصوص الصينية من حيث حدود الكلمات يعني إمكانية 


تمييز الكلمات من بين سلاسل الرموز المتتالية في النصوص؛ التي لا يفصل 
بينها فاصلء بالإضافة إلى وضع ترميز نحوي لتلك الكلمات يوضح نوعها 
النحوي داخل النص وما إلى ذلك» بالإضافة إلى ذلك فإن هناك فرقا بين كل 
من "الترميز"؛ و"الإيضاح" بالنسبة إلى النصوص. ويمكننا أن Jia‏ بين هذين 
النوعين من المعلومات من خلال النصوص التحريرية. فالعلامات الصرفية . 
لنص تحريري يستخدم لها الحروف اللاتينية بما في ذلك علامات الترقيم 
والمسافات. وهذه العلامات يتم التعبير عنها رقميًا بعلامات خاصة داخل 
الحاسب الآلي؛ حيث تشير كل علامة إلى شكل واحد تعبر عنه» بمعنى أن 
العلامات الصرفية الأصلية في النص يقابلها ملف رقمي واحد يعبر عنها. 
وفي أثناء عملية التمثيل هذه قد يفقد النص الأصلي بعض المعلومات 
التحريريةء مثل نوع hall‏ وحجمه. وهذا أمر مسموح به نظرا! إلى أن هذا 
النوع من المعلومات لا iy‏ عن جوهر المعلومات اللغوية التي يعبر عنها 
النص. وعلى العكس من ذلك» فإن ترميز أي نص عبارة عن وحدة ما وراء 
لغوية si ‘(metalinguistic)‏ أن ما تقدمه عملية الترميز ماهو إلا 
معلومات لغوية عن ذلك النص» وليس مضمون النص نفسه. | 

إلا أنه بالنسبة إلى حوار شفهي» أحيانا ما يكون هناك صعوبة في 
التمييز بين المعلومات الخاصة بالمضمون وتلك التي تختص بالإيضاح. وفي 
أثناء تحويل اللغة الشفهية إلى لغة تحريرية أو إلى نص رقميء يضطر 
الشخص القائم بالتحويل إلى الجمع بين نظامي العلامات المختص بالمضمون 
والآخر المختص بالإيضاح. وفي معظم عمليات التحويل» يتم استخدام 
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الوصف الصوتي بشكل إضافي لمزيد من المساعدة وذلك بالإضافة إلى 
الكتابة الأبجدية؛ ولكن هذا التدخل يتيح إمكانية القراءة الصوتية بشكل 
سطحيء أما فيما يتعلق بالطبيعة المادية أو اللغوية أو الاجتماعية للنص فهذا 
ری که رة كر ةرقن الف قق على ميل EL‏ د 
ترميز مستويات التأكيد والتنغيم الصوتي في اللغة الشفهيةء غالبا ما يتم ذلك 
عن طريق الحكم الشخصي للقائم بعملية التحويل من اللغة الشفهية إلى اللغة 
التحريرية» وفي الوقت نفسه يتوقف ذلك على نظام التحليل EAI‏ 


ثانيًا: لماذا يتم ترميز الذخائر اللغوية؟ 
١‏ - استخراج المعلومات 


لا يمكن اعتبار الذخائر اللغوية ذات فائدة إلا إذا أمكن استخراج 
المعلومات والمعارف منها. وفي الحقيقة فإن استخراج المعلومات من الذخائر 
اللغوية pia‏ من shall‏ غرس بعض المعلومات الإضافيةء والمقصود ب ذلك 
إضافة علامات الترميز. فالذخائر اللغوية التي تمثل نصوصنا رقمية إذا لم 
a‏ عليها أية عملية من عمليات المعالجة Gy‏ عليها ذخيرة لغوية خام 
«(raw corpus)‏ فمثل هذه الذخائر وعلى الأخص الذخائر الخام الصينية 
ينقصها المعلومات الصرفية والنحوية وما إلى cll‏ مما يجعل قيمتها ضئيلة 
إلى Sa‏ كبير. على سبيل المثال: كلمة "left"‏ في اللغة الإنجليزية باعتبارها 
كلمة مضادة في المعنى لكلمة LS right”‏ في tmy left hand”‏ وفي الوقت 
نفسه يمكن لهذه الكلمة أن تأتي ظرف مكان “turn left Jii‏ أو Cad‏ فنقول 
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Jail ولكن إذا تم النظر إليها على أنها صيغة الماضي من‎ ."on your left" 
ومن هنا فإن كلمة‎ "I left early” سيتم تحليلها باعتبار ها فعلاًء مثل‎ "leave" 
لها عدد من الاستخدامات. إلا أن هذا التعدد في المعنى لهذه الكلمة لا‎ "left 
يمكن تمييزه بوضوح في ذخيرة لغوية خام لم يتم عليها أية عملية من‎ 
عمليات الترميز. وهذا النوع من الذخائر سيكون به قصور شديد إذا تم‎ 
التعامل معه كمصدر من مصادر صناعة المعاجم. أما إذا تمت عمليبة‎ 
سيكون أمامها‎ “left” الترميز النحوي للذخيرة» فإن كل مرة تظهر فيها كلمة‎ 
رمز يوضح نوعها النحويء وهذه المعلومات من شأنها أن تساعد في تحسين‎ 
العمل المعجمي. ومثال آخر في مجال التطبيقات الخاصة بتحويل النصوص‎ 
في‎ lead أن كلمة‎ ass ‘(Text To Speech) التحريرية إلى نصوص منطوقة‎ 
SARE وعندما تكون فعلاً‎ fled) GLE اللغة الإنجليزية عندما تكون اسمًا‎ 
فإذا كنا بصدد تطوير برمجية ناطقة (بمعنى تحويل مُذخلات‎ ./11 : 0/ 
الحاسب الآلي من نصوص تحريرية رقمية إلى مُخرجات صوتية) فإن هذه‎ 
أم فعلاً قبل أن‎ Caul Tead ما إذا كانت كلمة‎ ya ol البرمجية سيتحتم عليها‎ 
تنطقها نطقًا سليمًا. فضلاً عن أن اللغة الصينية تنتشر بها ظاهرة الرموز‎ 
كما في‎ "hang?" الذي ينطق‎ FF" التي لها أكثر من نطقء مثل: الرمز‎ 
بمعنى المارّة. في‎ "FTA" كما في كلمة‎ "ingx2" وينطق‎ eslis بمعنى‎ "4847" 
dale ذلك الوقت وعند القراءة الصوتية للنصوص التحريرية ستكون هناك‎ 
من نطقه بشكل سليم. ومن هنا فإن عمل‎ AYI لترميز الرمز "47" حتى تتمكن‎ 
ترميز صرفي ونحوي للذخائر اللغوية من شأنه أن يقتم المعلومات التي‎ 
تحتاجها تلك البرمجية الناطقة.‎ 
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一‏ تعدد الاستخدام 

إن المقصود بتعدد استخدام الذخائر اللغوية التي تحمل علامات الترميز 
هو إمكانية إعادة استخدام المصادر اللغوية التي تقدمها تلك الذخائر غير 
مرة. ويعتقد البعض أنه لا حاجة إلى إضاعة الوقت والمجهود في أعمال 
ترميز ALLS‏ للذخائر اللغوية» وأنه يمكن الاكتفاء بتصميم برمجية ذكية تقوم 
بتمييز الأنواع النحوية للكلمات؛ مثل كلمة "left"‏ حيث يتم التعامل معها 
باعتبارها صفة إذا Cole‏ قبل اسم» ويتم التعامل معها على أنها ظرف مكان 
إذا جاءت بعد فعل» وهكذا. ولكن تنفيذ الأمر على هذا gaill‏ يشوبه عيبان: 

)1( يشير المثال السابق إلى أننا إذا أردنا تمييز إحدى الكلمات» فمن 
الضروري أن نتعرف سابقًا على نوع الكلمة التي تسبقها. ول ذلك 
فإن تمييز نوع الكلمات لا يمكن النظر إليه بمعزل عن الكلمسات 
المحيطة بالكلمة التي نرغب في ترميزها. 

(Y)‏ الهدف من عمل الترميز النحوي وغيره من مستويات الترميز 
للذخائر اللغوية هو: تحويل المادة اللغوية التي تحتويها الذخيرة إلى 
مادة ذات قيمة أعلى» وهذا الغرض يتحقق بمجرد إضافة مستويات 
الترميز المختلفة؛ حيث تتيح هذه العملية الذخيرة للآخرين كي 
يستفيدوا منها. إن عمليات ترميز الذخائر اللغوية مكلفة ومُمتتنفذة 
للوقت؛ ولكن كل ذلك المال والجهد يكون في محله إذا أمكننا تنويع 
استخدامات الذخائر. 
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一‏ تعدد الوظائف 

إن الذخيرة التي تتم عليها عمليات الترميز غالبًا ما يكون لها أفداف 
وتطبيقات مختلفة» وهذا ما يُطلّق عليه تعدد الوظائف للذخيرة اللغوية. ففي 
الجزء السابق تحدثنا عن وظيفتين مختلفتين. للذخائر اللغوية المُرمّزة وهما 
الاستخدام في صناعة المعاجم وإنتاج تطبيقات القراءة الجهرية للد صوص 
التحريرية. ويضاف إلى ذلك أن الذخائر jil‏ يمكن أن ينتج عنها 
تطبيقات أخرى في مجالات هندسة اللغةء مثل الترجمة بمساعدة الحاسب 
واستخراج المعلومات من النصوصء وما إلى ذلك. وهكذاء فإن عمليات 
الترميز من شأنها أن تحقق 'قيمة مضافة" للذخائر اللغوية بكل ما تعنيه 
الكلمة. والترميز النحويء باعتباره أحد مستويات الترميز الأساسية» ما هو 
إلا تمهيد للمستويات الأعلى من الترميزء. على أساس أن هذا النوع من 
الترميز هو الخطوة الأولى نحو الترميز على مستوى بنية الجملة والترميز 
على مستوى الدلالة. ونظرًا إلى وجود العديد من المستخدمين الذين 
سيستفيدون من الذخائر اللغوية ob Se fall‏ فسيأتي من ضمنهم من يتمكن مسن 
تفعيل استخدامات الترميز بشكل لم يرد في تصور مصممي عمليات الترميز 
من البداية؛ الأمر الذي يزيد من أهمية الأدوار الإضافية التي تلعبها الذخائر 
اللغوية b Sayal‏ في مجال العمل اللغوي. 
ÉG‏ التوحيد القياسي لعمليات ترميز الذخائر اللغوية 

إن مستوى "الخبرة" الذي يتمتع بة القائمون على ترميز الذخائر اللغوية 
وقياسية علامات الترميز المستخدمة ومدى منطقيتها وقابليتها للاستخدام كلها 
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عناصر يتحدد على أساسها مدى فائدة المعلومات التي le‏ ترميز الذخيرة 
اللغوية وإمكانية احتوائها على معلومات يمكن التعامل معها. ففي الفترة 
القصيرة من تاريخ علم ترميز الذخائر اللغوية» كانت أنظمة الترميز التي 
يقدمها العاملون على بناء الذخائر اللغوية صعبة الاستخدام من قبل الآخرين 
لدرجة أن هناك بعض الحالات كان يستحيل استخدامها. وحتى يمكن تجنب 
هذه الظاهرة» ينبغي تحقيق المعايير التالية في تصميم أنظمة الترميز: 
-١‏ إمكانية استعادة النسخة الخام للذخيرة اللغوية بعد حذف علامات 
الترميزء وبعبارة أخرى إمكانية استرجاع أصل الذخيرة. 
-Y‏ إمكانية استدعاء المعلومات التي يتم ترميزها بشكل مستقل عن 
الذخيرة» مع إمكانية Bia‏ النتيجة عند الحاجة إلى ذلك. 
۳- إمكانية قيام مستخدم الذخيرة بالاطلاع على مستندات تحتوي 
المعلومات التالية: 
|( المنهجية المتبعة في الترميزء أي الحصول على مستندات تحتوي 
وصفا وشرحا للمعايير التي تم الاتفاق عليها في عمليات الترميز. 
ب) مستندات تضم أسماء القائمين على عمليات الترميز والمكان الذي 
تمت فيه والمنهجية المُتبعة. | 
é‏ 
ج) شرح تفصيلي لما يتعلق بالخطوات التي اتبعت لضمان جودة 
الترميز؛ وذلك نظلا إلى كثرة حدوث الأخطاء واللبس الذي يحدث 
في أثناء عمليات الترميز بسبب عدم توحيد المعايير المُستخدمة؛ 
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ويُذكر على سبيل المثال: تسجيل المستوى الذي وصلت إليه 
عمليات مراجعة الترميزء والنسبة المئوية للأخطاء التي تم اكتشافها 
في أثناء عمليات deal yall‏ والمستوى الذي وصلت إليه عمليات 
توحيد معايير الترميزء وما إلى ذلك. | 

د) وضع إشارة للمستخدم مُفادُها أن عمليات الترميز التي تمت على 
الشكيزة لضت تطلقة و أنه ل يمكن كونب و جود yb‏ من الأخطاء: 
وأن الذخيرة لا تخرج عن نطاق أنها مصدر لغوي تتحقق الفائدة 
Ain‏ عند حد معين فقط. يقتصر الغرض من إتاحة معلومات عن 
المنهجية المتبعة في الترميز على تقديم مرجعية يمكن الاستشهاد 
بها والاستفادة منها وقت استخراج التطبيقات المختلفة من الذخيرة 
اللغوية. وفي تلك الحالةء سيكتشف العديد من المستخدمين أن هناك 
فائدة من استخدام الذخائر اللغوية المُرمّزة» وأن ذلك أفضل من 
اتباع منهجيات قاموا بتصميمها بأنفسهم؛ لأن هذا العمل يحتاج إلى 
إضاعة العديد من السنوات حتى يمكن إنجازه. 

(a‏ بناء منهجية للترميزء وحتى يمكن تجنب سوء الفهم وضمان 
حسن استخدام المتعاملين مع الذخيرةء تم الاعتماد على بيانات 
للتحليل تتصف بالوسطية ووجود أساس نظري لها بالإضافة إلى 
إمكانية الاتفاق عليها من أكبر عدد من الناس. وعلى الرغم من 
حتمية تعرض عمليات الترميز لبعض CNSY‏ النظرية:؛ فإن 
الغرض الأساسي من عمليات الترميز يتجه بشكل أكبر إلى الالتزام 
قدر الإمكان بمدى القبول والفهم على نطاق واسع من المستخدمين. 
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و) أية منهجية للترميز لا يمكن أن ينتج عنها ما يسمى 'بالمعايير التي 
لا تتغير". فقد ثبت من خلال التطبيق العملي أن منهجيات الترميز 
تتجه دائمًا إلى «all‏ على سبيل المثال» نجد أن نطاق الذخائر 

. التي تم ترميزها قد يتسبب في إعاقة عمليات الترميز في المستويات 
العليا الأكثر تفصيلاً؛ لأن تحقيق الهدف الأساسي من عمليات 
الترميز يتطلب وضع أولوية للتفكير في بعض المعلومات التي 
تخص عددا من التقسيمات التي تنشأ على أساسها منهجيات الترميز 
وما إلى تلق 

على الرغم من توافر المبادئ الستة سالفة الذكرء فما زال هناك 

البعض يطالب بإقرار نوع من المعايير القياسية في مجال ترميز الذخائر 
اللغوية؛ بالإضافة إلى أن التطبيقات المختلفة في السنوات الأخيرة في هذا 
المجال قد توصلت تدريجيًا إلى إيجاد نوع من التوحيد العلمي لعمليات 
الترميز. ويتمثل أحد أسباب التوجه إلى التوحيد المعياري في الوصول إلى 
مستوى الشيوع والتعميم؛ لأنه ما إن يجد المتعاملون في هذا المجال فائدة من 
. استخدام أحد نماذج الترميزء حتى يُصرٌون على استخدام هذا النموذج لتطوير 
ذخائرهم التي سبق ترميزها. وهناك سبب آخر وهو ما سبق: التأكيد عليه من 
مبدأ تعدد الاستخدامات. فإذا رغب عدد من الباحثين تبادل البيانات أو 
المصادر اللغوية (ذخائر Djaya‏ على سبيل المثال) فسوف يكون هذا التبادل 
سهلا بين الجهات المختلفة إذا ما كانت تتبع نموذجًا موخذا للترميز أو على 
الأقل بينها اتفاق على بعض المبادئ الاسترشادية. وفي حالة الحاجة إلى 
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تبادل البرمجيات التي تتعامل مع الذخائر اللغوية فسوف تبرز قضية التوحيد 
القياسي لعمليات الترميز كمطلب أساسي لإمكانية تبادل تلك البرمجيات. 


رابعا: الحدود التي يتم عندها ترميز الذخائر اللغوية 

هناك اختلاف شديد بين الحدود التي تقف عندها عمليات الترميز بين 
كل من اللغتين الإنجليزية والصينية. ويرجع السبب في ذلك إلى عدم وجود 
مسافات تشير إلى حدود الكلمات في اللغة الصينية. sg‏ عملية تقسيم 
سلاسل الرموز في النصوص الصينية إلى سلاسل من الكلمات هي المهمة 
الأولى في عملية ترميز اللغة الصينية للتعرف على حدود الكلمات LEM‏ إن 
تمييز حدود الكلمات في اللغة الصينية هو أحد المشروعات الأساسية المهمة 
في ale‏ معالجة اللغات الطبيعية باللغة الصينية؛ وتُحقق تلك الخطوة هدفا 
أساسيًا في مجال معالجة النصوص ÚT‏ حيث fies‏ الكلمات وحدات المعالجة 
الآلية للنتصوصء وهذا ما ينبغي أن يتم كخطوة أولية يجب التغلب عليها 
بالنسبة إلى المنظومة الكاملة للمعالجة الآلية للغة الصينية. إن عمليات 
المعالجة الآلية للغة الصينية تشمل عمليات الاستعلام عن المعلومات 
واستخراجهاء والترجمة الآلية» والتحليل النحوي وغير ذلك من العمليات 
اللغوية التي لا غنى عنها عند التعامل مع الكلمات باعتبارها الوحدات 
الأساسية للتعامل اللغوي. ومن خلال جهود العلماء على مدى عشرين Lale‏ 
حققت اللغة الصينية إنجازات كبيرة في مجال التمييز الآلي لحدود الكلمات 
الصينية» وقد وصلت نسبة دقة التمييز إلى حوالي %۹۹ . ولكن ما زالت 
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هناك بعض المشكلات في مجال تمييز حدود الكلمات داخل الننصوص 
الصينية لم يتم حلها بشكل جذري. وتشمل تلك المشكلات: أسماء الأعلام 
الشخصية والجغرافية وأسماء الآلات وما إلى ذلك من الكلمات التي لم Saad‏ 
في قوائم الكلمات التي يتم التمييز على أساسهاء بالإضافة إلى إشكاليات اللبس 
في تمييز حدود الكلمات. 


وفي الجزء التالي نستعرض المراحل التي تمر بها عمليات الترميز؛ التي 
تم التعارف عليها على مستوى مختلف اللغات: الترميز النحوي (أو ترميز 
الأنو اع النحوية للكلمات) «(grammatic tagging)‏ والترميز على مستوى بنية 
الجملة «(syntactic annotation)‏ والترميز الدلالي «(semantic annotation)‏ 
والترميز على مستوى الخطاب -(discourse annotation)‏ 


-١‏ الترميز النحوي 


كان ذلك هو أول مشروع لترميز ذخيرة لغوية» وقد ثم على ذخيرة 
براون عام ١917١‏ بجامعة براون الأميركية. وكان ذلك بإشراف calle‏ لغة 


l‏ أشرفا على عملية الترميز هما فرانسیس Francis‏ وكوسيرا ckucera‏ وتنفيذ 


اثنين من باحثي الماجستير LE‏ باتباع القواعد المتعلقة بالسياق في تنفيذ هذا 
النوع من الترميز. وتضم مجموعة الترميز الخاصة.بهذه العملية عدد سبعة 
وسبعين رمزا. وهذه الرموز النحوية لا GEG‏ فقط الكلمات من dya‏ النوع 
النحوي مثل الأسماء والأفعال والصفات وما إلى ALS‏ بل تصل إلى 
تصنيفات أكثر تفصيلاً داخل كل of gi‏ مثل تمييز صيغة المفرد والجمع من 
الأسماءء وتمييز الأنواع المختلفة للصفات» وما إلى ذلك. 
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وقد وصلت دقة النتائج التي حققتها برمجية الترميز النحوي تلك إلى 
۷ وقد تم تصويب أخطاء الترميز بالمجهود البشري بعد AS‏ وفي 
النهاية تم التوصل إلى aie‏ ذي فائدة عاليةء ألا وهو ذخيرة براون المُرمّزة 
نحويًا. ويرجع مغزى هذا العمل البحثي إلى أنه أظهر لأول مرة الخصائص 
العامة لترميز الذخائر اللغوية. فمن ناحية» أظهر هذا العمل الفرق بين العمل 
Å‏ والعمل اليدوي في ترميز الذخائر اللغوية؛ حيث أكد حتمية أسلوب 
الترميز الآلي» مع ضرورة أن ai‏ هذه المرحلة عمل يدوي مكثف ومجهود 
شاق في عمليات المراجعة والتصويب. فالترميز اليدوي والترميز الآلي 
عملان يكمل كل منهما الآخرء ولا يمكن بأي حال من الأحوال الاكتفاء 
بالترميز اليدوي فقط في إنجاز تلك المهمة. ومن ناحية أخرى فإن الترميز 
الآلي لا يمكن الاعتماد عليه إلا بعد أن يصل إلى درجة عالية من الدقة في 
Saga‏ 

والمشروع الثاني للترميز النحوي تم تنفيذه عام ١187‏ على ذخيرة 
لوب ‘LOB‏ يتمثل وجه الاختلاف بينه وبين المشروع السابق في: تطبيق 
منهجية الاحتمالات الإحصائية على الذخيرة اللغوية موضع الترميز. وقد 
اعتمد هذا المشروع على ذخيرة براون المُرَمّرَة نحويًا كمصدر للإحصاءات 
اللغوية في حساب احتمال تحول علامتي ترميز نحويتين داخل ذخيرة لوب . 
وغير ذلك من المتغيرات. وقد وصلت دقة برمجية الترميز النحوية تلك إلى 
۷ وأطلق عليها سم CLAWI‏ ومعنى ذلك أنه بالمقارنة بالبرمجية 
الأولى التي اعتمدت على القواعد كمصادر للترميز» فإن دقة الترميز بينهما 
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قد قفزت قفزة واحدة بمقدار .90٠١‏ بعد ذلك» ظهرت LEU‏ العديد. من 
برمجيات الترميز النحوي التي اعتمد معظمها على نظرية الاحتمالات 
الإحصائية. والمشكلة الوحيدة في تلك المنهجية هو احتياجها إلى ذخيرة لغوية 
سبق ترميزها للتجريب عليهاء بالإضافة إلى أن طول السياق يكون محدوذا 
في أثناء حساب Lae!‏ بمعنى ضرورة الاكتفاء بكلمة أو كلمتين يمين 
الكلمة موضع التعامل أو يسارها. وقد بدأت دراسات الترميز النحوي للغة 
الصينية في نهاية الثمانينيات وبداية التسعينيات من القرن العشرين» وكائنت 
أول جهتين تقومان بعمل دراسة عن الترميز النحوي للغة الصينية هما جامعة 
شين خوا وجامعة شان شي. 
" - الترميز على مستوى أبنية Saal‏ 

المقصود بالترميز على ممنتوى أبنية aal‏ إضافة معلومات تبين 
الأبنية النحوية لجمل الذخيرة اللغوية. إن أول من طرح فكرة دراسة ترميز 
الذخائر اللغوية على مستوى بنية الجمل هو العالم إليجارد Elegard)‏ '!؛ 
حيث قام هو وتلميذ له عام ۱۹۷۸ بعمل تحليل نحوي لجزء من ذخيرة 
براون (حوالي ١١86٠٠١‏ كلمة). ومع حلول ثمانينيات القرن العشرينء بدأت 
جامعة ناجميجن Nijmegen)‏ وجامعة لانكاستر (/1)3702516”'! في 
إنشاء برمجية يمكنها إجراء تحليل نحوي لذخيرة لغوية. ومع بداية 
التسعينيات» أثبتت بنوك التحليل الشجري (Tree Banks)‏ أن الذخائر 
sp |‏ على مستوى أبنية الجمل هي أحد المصادر المهمة في مجال 
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المعالجة الآلية للغات الطبيعية. على سبيل المثال» في أثناء تمييز الأصوات 
اللغوية ومجال الترجمة بمساعدة الحاسب تكون هناك حاجة إلى برمجية قوية 
للتحليل على مستوى أبنية الجمل. ويصل بنك لانكاستر- آي بي إم 
(Lancaster/IBM)‏ للتحليل الشجري إلى ثلاثة ملايين كلمةء أما إنشاء بنك 
جامعة بنسلفانيا"""' فقد أضاف قطاعًا عريضًا من مستخدمي هذا النوع من 
المصادر اللغوية؛ حيث استخدمت تشيلبا (Chelba)‏ من جامعة جون هوبسكن 
بنك التحليل الشجري هذا في تأسيس نموذج لغوي يعتمد على الأبنية 
ld, yal‏ وحَلّت بذلك مشكلة التصاحب اللغوي طويل المدى في النصوص 
yl‏ وحققت التجارب المبدئية لهذا النموذج نسبة دقة عالية في تمييز 
الجمل. ويشير مصطلح بنك التحليل الشجري إلى أن شجرة التعبيرات اللغوية 
هي الوحدة الأساسية في عمل ترميز الذخائر اللغوية على مستوى الأبنية 
النحوية. إن مشروع الترميز على مستوى أبنية الجملة أكثر تعقيدًا وله 
احتياجات أكثر تقدمًا من مستوى الترميز النحوي للكلمات. ولذلك تأتي 
الدراسات المتعلقة بهذا المجال في A‏ تالية لمرحلة الترميز النحوي 
للكلمات» وإلا فشلت تلك المشاريع وكانت نتائجها في التحليل غير دقيقة. 

وفي أثناء عمل ترميز للذخيرة اللغوية على مستوى أبنية الجمل يمكن 
عمل تحليل نحوي كلي أو جزئي لجمل الذخيرة. ومن خلال تحليل الذخائر 
اللغوية على مستوى أبنية الجمل يمكن التعمق في الاستفادة بالاستخدامات 
التالية للذخائر اللغوية: 


ASA (i)‏ برمجيات لتحليل الذخائر على مستوى أبنية الجمل 

وتطويرها 

إن الاستخدام الرئيس لعمليات ترميز الذخائر اللغوية على مستوى أبنية 
. الجمل هو التدريب على تصميم برمجيات للترميز الآلي لهذا المستوى 
> وتدريبها على الترميز الصحيح: هذا بالإضافة إلى أن هذه البرمجيات من 
العناصر المحورية التي لا غنى عنها في التطبيقات المتعلقة بالمعالجة الآلية 
للغات الطبيعية. إن استخدام الذخائر اللغوية المرمزة على هذا المستوى 
يساهم في تصميم برمجيات لتحليل الذخائر اللغوية على مستوى أبنية الجمل 
تعتمد على نظرية الاحتمالات» الأمر الذي EY‏ إمكانات تلك البرمجيات في 
الترميز على هذا المستوى. وقد pea‏ كل من جيلينيك (Jelinek)‏ وكوليئز 
(Collins)‏ من جامعة بنسلفانيا الأميركية برمجية تحليل لأبنية الجمل 
باستخدام نظرية الاحتمالات» وللتعرف Yule‏ بالتفصيل يمكنك الاطلاع على 
المرجعين T65]‏ ,661( 

(ب) استخراج المعلومات المتعلقة بالمفردات 

الذخائر اللغوية المرمزة على مستوى أبنية الجمل تحتوي العديد من 
المعلومات الصرفية والنحوية؛ ومن E‏ يكون لها فائدة في إنشاء المعاجم 


rad 
DO يس‎ 


الإلكترونية. والمعاجم الإلكترونية عبارة عن مصادر ذات أبنية pt‏ . 
المعلومات اللازمة عن التغيرات الصرفية التي تحدث للكلمات بالإضافة إلى 
المعلومات النحوية والدلالية؛ وذلك لتغذية أنظمة المعالجة الآلية للغات 


الطبيعية. إن استخدام هذا النوع من الذخائر اللغوية يمكنه أن يقدم للمعاجم 
الإلكترونية معلومات عن تصاحبات المفردات وأطر الاستخدام» بالإضافة إلى 
بعض المعلومات عن استخداماتها في أنواع النصوص المختلفة. 
"- الترميز على مستوى الدلالة 

يتم استخراج المفردات التفصيلية لعملية الترميز الدلالي من المستويات 
اللغوية المختلفة. ففي البدايةء يتم عمل ترميز دلالي لكل كلمة من كلمسات 
النص» ويعتمد جوهر هذه العملية على تمييز التعدد الدلالي للكلمات وفقا 
للسياق والتوصل إلى المعنى الصحيح لكل كلمة. ولذلك إذا أردنا Cc sal‏ 
بصورة أدقء فإن هذا المستوى من الترميز ينبغي أن يُطْلّق عليه اسم ترميز 
معاني الكلمات أو عملية إزالة اللبس الدلالي بين الكلمات؛ Lel 3 Dy‏ 
اختصارً! (Word Sense Disambiguation) WSD‏ بالإضافة إلى ذلك» 
يمكن ترميز كل جملة من جمل النص من حيث معنى الجملة؛ فعلى سبيل 
المثال؛ يُمُكن استخدام شبكة العلاقات الدلالية التي تنشأ من الحالات النحوية 
للكلمة داخل التركيب من أجل التعبير عن المعنى المنطقي للجملةء أو الاكتفاء 
باستخدام العناصر الدلالية الثلاثة التي تتكون من عنصرين لغويين مع الحالة 
الدلالية التي تربط بينهما للتعبير عن معنى كل وحدة دلالية تتكون منها 
الجملة. والجدير بالذكر أن الباحثين في مركز الأبحاث التابع لشركة 
مايكروسوفت الأميركية قد استخدموا رسميًا العلاقات الدلالية الثلاث 
باعتبارها خلية لغوية وقاموا بتكوين شبكة دلالية هائلة الحجم أطلق عليها اسم 
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مايندنت "(MindNet)‏ اعتمادًا على معجمين للغة sh‏ ية و نتائج التحليل 
النحوي والدلالي لإحدى الموسوعات باللغة الإنجليزية. py‏ شبكة 
مايندنت (MindNet)‏ حاليًا في إزالة اللبس الدلالي والنحويء بالإضافة إلى 
استرجاع المعلومات وما إلى ذلك من الأبحاث المتعلقة بحقل المعالجة الآلية 
للغات الطبيعية ومشروعات تطوير هذا العلم. 

gy‏ مجال تحليل الخطاب» فإن أسلوب التعبير عن المفاهيم من الممكن 
أن ينعكس على النصوص أو الشكل الإدراكي الذي يتكون بين المتحدثين. 
ففي الحديث الذي يدور بين الطبيب والمريض» سوف يستخدم الطبيب 
بالتأكيد كلمات من قبيل "منطقة البطن" وغيرها من التعبيرات الاصطلاحية 
للتعبير عن مستوى معين من التخصص في الحديث» وطبيب آخر قد يستخدم 
كلمة أكثر عامية مثل كلمة "البطن" حتى يمكنه التواصل مع المريض حسب 
مستواه المعرفي. بالإضافة إلى ذلك ففي مجال البحث عن المعلومات» إذا 
أراد شخص مهتم بالموضة أن يتعرف» من خلال ما تنشره الصحف» علسى 
التغير الذي حدث في مجال الأزياءء واتخذ من ارتداء Dg fall‏ مثالا ل ذلك 
ففي أثناء تعامله مع ذخيرة لغوية سيكون من الطبيعي ألا يكتفي بالبحث عن 
كلمة سروال فقطء بل ينبغي له إضافة كلمات أخرى تمثل أنواع السراويل 
مثل "السّروال القصير"؛ Gn My Sally‏ (الاستريتش) و'السروال 
الجينز"» و'سروال سباق الخيل" وما إلى ذلك. وهذا ما نطلق عليه في علم 
الدلالة إشكالية الكلمات المتعددة التي لها دلالة واحدة. وبمعنى آخر وجود 
عدد من الكلمات تشير إلى مفهوم واحد في الوقت نفسه. بالإضافة إلى ذلكء 
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نجد أنه في مجال البحث عن المعلومات تكون هناك حاجة إلى AMS a‏ 
الكلمات متعددة الدلالة. فإذا أردنا الآن أن نتعرف على مقدار التغير في 
مجال cl gall‏ يمكننا أن نبحث بالكلمة المفتاحية ge” PRP‏ إلا أن كلمة 
"HEF‏ "مواد" تلك قد 5 تحتمل معنى آخر هو " "文档‏ وثائق". وأهم مافي 
الأمر هو أن المستخدمين لا تكون لديهم رغبة إلا في الاستعلام عن 
المعلومات التي تهمهم فحسب. 
وتعتبّر الحاجة لحل مثل هذه المشكلات إحدى آليات الترميز الدلالي 
للنصوص؛ بمعنى أن وضع علامة تشير إلى معنى كل كلمة داخل النص 
يُعتبر بمثابة تقرير لمعنى هذه الكلمة hy‏ للسياق التي وردت فيه. والمثال 
pT re nae‏ في الترميز الدلالي يشير إلى نطاق 
دلالي معين ليه الكلمة موضع الترميز وهذا النطاق الدلالي يضم في 
Oe RS‏ | 
وعند إجراء الترميز الدلالي» ينبغي البدء باختيار نظام التصنيف 
'الدلالي (أو المفهومي) الذي سيتم اتباعه في عملية الترميز. وفي هذا الإطارء 
ينبغي النظر إلى العناصر التالية بعين الاعتبار: 
)1( أن يكون نظام التصنيف الدلالي EEN‏ متعارف عليه بين جمهور 
علماء اللغة أو علماء اللغة النفسيين. 
(Y)‏ أن يُغطي هذا النظام الكلمات الحقيقية في إحدى اللغات وليس 
le ja‏ منها. 
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(Y)‏ أن يُمْكن تعديل هذا النظام بمرونة» حتى يسهل تطويعه لخدمة 
مستخدمين آخرين ومجالات أخرى. 

)£( أن يكون حجم الوحدات الدلالية المستخدمة مناسبًا. 

)0( أن يتمتع نظام التصنيف Nal‏ بالتدرج البنائي. 

)1( أن يعتمد نظام التصنيف الدلالي على معيار قياسي age‏ 
؛- ترميز مستوى الخطاب: الترميز على مستوى العلاقة بين المتحدثين 

يختلف الترميز على مستوى الخطاب عن المستويات الأخرى من 
مستويات الترميز في صعوبة وضع تعريف محدد له. فعند ترميز معلومات . 
الخطاب لنص من النضوص» يمكن الاستعانة بالجمل كوحدات للترميز» dya‏ 
يُنظر إلى الجمل على أنها أكبر وحدة للتركيب النحويء وعند ذلك الحد يتم 
ترميز الجملةء بالإضافة إلى تصنيف الجملة LB,‏ لوظيفتها في عملية 
الخطاب؛ هذا بالإضافة إلى إمكانية استخدام مفاهيم مثل 'محور الجملة“ 
و"موقع الفاعل" و'موقع المفعول" لترميز بناء الجملة By‏ لهذا النوع من 
المعلومات؛ كما يمكن أيضنًا أن يعتمد هذا النوع من الترميز على التدرج 
البنائي للنص أو شرح العلاقة بين المتحدثين كمفردات للترميز. 

وما نرغب في التأكيد عليه هنا هو علاقات التدرج البنائي للنصء 
وهي إحدى منهجيات الترميز على مستوى الخطاب التي تم تنفيذها حتى الآن 
بشكل عملي على ذخيرة ذات نطاق محدود. وتجدر الإشارة في هذا السياق 
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إلى أن عدد أنظمة jue fill‏ على مستوى الخطاب قليلة إلى Se‏ كبير حتى 
الآن. إن عملية ترميز الخطاب باتباع علاقات التدرج البنائي للنص ليست 
وثيقة الصلة بأساليب الترميز الأخرى كالترميز الصرفي والنحوي والدلالي. 
فالترميز الدلالي يهتم بإيضاح معاني الكلمات» أما ترميز الخطاب فيهتم 
بإيضاح الأوجه المتعددة للكفاءة اللغوية» ويُقصد بذلك تلك الأمور المتعلقة 
بانتقال المعنى من جزء إلى آخر داخل النص. فإذا لم نتمكن من شرح المعنى 
على هذا المستوى» أصبح أمامنا عائق في فهم هذا الجزء من لغة البشر. 

وقد سبق أن نوقش موضوع الترميز على مستوى الخطاب بشكل 
مكثف في أثناء مؤتمر Cus DAAR96‏ إن الحاجة إلى تفسير الضمائر وما 
تشير إليه؛ وإزالة اللبس المتعلق بهذا الأمر من موضوعات البحث الرئيسة 
التي يهتم بها كل من علماء اللغة التقليديين وعلماء اللغة الحاسوبيين على ia‏ 
سواء. وعلى الأخص فإن علماء اللغة الحاسوبيين بدءوا في الاهتمام بالذخائر 
اللغوية التي نخدم في التدريب على هذا النوع من الترميز؛ التي تستخدم 
في اختبار البرمجيات. ففي العقود القليلة الماضيةء أصبحت إشكاليات تحديد 
ما تشير إليه الضمائر إحدى القضايا الساخنة في مجالات الترجمة الآلية 
واستخراج المعلومات من النصوص. على سبيل المثال» ما تشير إليه ضمائر 
الغائب shechectheysti‏ في أحد النصوص التي تتهيأ للمعالجة الآلية. وحتى 
يمكن التغلب على تلك المشكلة كان هناك وجهتان للنظر: الأولى ترى أنه لا 
غنى عن تغذية الآلية بالمعلومات اللغوية ومعلومات العالم الحقيقي حتى 
تتمكن الآلة من تحديد ما تشير إليه تلك الضمائرء أما وجهة النظر الثانية 
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فترى أن الاعتماد على أسلوب الخبرة من الممكن أن يُوَصّل إلى تلك النتيجة 
وهذه المنهجية لا تنتخدم معلومات العالم الحقيقي» بل تكتفي فقط باس تخدام 
المسافة بين الضمير والكلمات السابقة له: بالإضافة إلى المعلومات 
الإحصائية عن الكلمات أو العلامات داخل النص في التوصل إلى ما تشير 
إليه الضمائر. إن الاستعانة بالمنهجية الإحصائية وذخيرة مُرمزة مناسبة من 
الممكن أن يساعد في تجريب وسيلة آلية تعتمد فقط على النصوص في تمييز 
علامات الترميز الخطابي داخل النص. 

قامت جامعة لانكاستر ببناء ذخيرة شجرية لإحالات الضمائر بتمويل 
من شركة آي بي إم. وكانت عبارة عن ذخيرة شجرية تحمل ترميزرًا على 
مستوى أبنية الجمل» وعلى هذا الأساس تمت إضافة رموز خطاب تشير إلى 
علاقات التدرج البنائي داخل النص. وأثبتت تجارب الترميز أن الترميز i‏ 
مستوى الخطاب يمكن تنفيذه É A by‏ ويتم الحصول على نتائج 
وفيما يلي نقدم بعض أمثلة حقيقية توضح نتيجة الترميز ee‏ 
الخطاب الذي قامت به هذه الجامعة. 

:١ مثال‎ 


1) the married couple 6) said that<REF=6 they were happy 
with<REF= 6 lot. 


:2 مثال‎ 
` 7) this week’s winner 7) said <REF=7 he had rung (8 <REF 


7 his wife 8) and <REF=7,8 they had spoken to< REF=7,8:2 each 
other. 
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حيث يتم وضع الكلمات التي سبق ذكرها بين قوسين ويسبق هذه 
الكلمات رقم مُفهْرسء ولا يوجد لهذا الرقم إلا مرجعية واحدة داخل النص؛ 
أما الضمير الذي تنوب عنه هذه الكلمات فتوضع قبله علامة REF" je jill‏ 
الرقم المفهرس" أي أنه yeki‏ الضمير المقابل لتلك الكلمات داخل النص. 


اعاب Bilgil‏ 
ملم الذخائر اللغوية 
والدراسات اللغوية 
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تم الاتفاق على أن علم الذخائر اللغوية هو ذلك العلم الذي يعتمد على 
أسلوب جمع النصوص اللغوية الواقعية لدراسة مشكلات علم اللغة. فمن 
حيث المنهجيةء نجد أن هذا الأسلوب ينتمي إلى المنهج التجريبي في البحث 
العلمي» الذي يختلف عن المنهج العقلي الذي اتبعه تشومسكي. ومن هناء فقد 
اهتم الجميع Ca‏ الدراسات اللغوية القائمة على ذخائر لغوية. 
وفي حقيقية الأمرء تميزت الدراسات اللغوية الصينية على مدى التاريخ دائمًا 
بالانطلاق من الوقائع اللغوية الحقيقية. إلا أن قصور متابعة الباحثين 
الصينيين للبنية المعرفية على مستوى العالم قد تسبب في تأخر الأبحاث 
الصينية القائمة على ذخائر لغوية مُمَيِكنة في عمل دراسات لغوية لبعض 
الوقت عن الغرب. 
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الفصل الأول 
منهجية الذخائر اللغوية في الدراسات اللغوية 


يتناول هذا الباب بالتعريف أهم تطبيقات منهجية الذخائر اللغوية في 
الدراسات اللغوية. إن أحد أهم استخدامات منهجية الذخائر اللغوية في 
الدراسات اللغوية استخراج البيانات اللغوية التجريبية الأكثر شيوعًا وتقديمها 
. للعاملين في مجال البحث اللغوي. ويبدأ هذا الباب بتعريف القارئ بالتطبيقات 
المختلفة لمنهجية الذخائر اللغوية في حقل الدراسات اللغويةء SS,‏ الباب. 
بتقديم بعض الأمثلة الحقيقية التي حققت نتائج على أرض الواقع. 
أولاً: الذخائر اللغوية وتطبيقاتها في الدراسات المتعلقة بعلم المفردات 
إن تاريخ اعتماد مؤلفي المعاجم على البيانات اللغوية الواقعية 
واستخدامهم لها في مؤلفاتهم sagal‏ يسبق ظهور علم الذخائر اللغوية. على 
سبيل المثال سبق أن استخدم allel‏ صمويل جونسون (Samuel Johnson)‏ 
الجمل إلواردة في الأعمال الأدبية في تأليف معجمه. وفي القرن التاسع 
عشرء استخدم معجسم أكسفو رد للغة الإنجليزية ( Oxford English‏ 
(Dictionary‏ بطاقات الاستشهاد (citation slips)‏ لدراسة الاستخدامات 
المختلفة للكلمات وشرحها. وما زالت طريقة جمع الاستشهادات اللغوية من 
اللغة الواقعية مستمرة حتى الآن» إلا أن ظهور الذخائر اللغوية وما صاحبها من ٠‏ 
منهجيات قد G2‏ من أسلوب استقراء مؤلفي المعاجم واللغويين للحقائق اللغوية. 
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فالذخائر اللغوية في الوقت الراهن تعني أن مؤلفي المعاجم بإمكانهم 
الجلوس أمام إحدى شاشات الحواسيب الإلكترونية» وفي ما لا يزيد عن عدة 
ثوان يمكنهم استخراج الأمثلة الكاملة التي GS‏ الاستخدام الحقيقي لكلمة أو 
تعبيرة لغوية في نصوص يتعدى حجمها مليون كلمة. وهذا لا يعني فقط أن 
إنتاج paleal‏ وتطويرها يتم الآن بشكل أسرع مما سبق» بل يعني Cai‏ أن 
تعريف المواد اللغوية يتم بشكل أدق وأكثر شمولية؛ وذلك لأن المواد اللغوية 
يتم استقراؤها من خلال ذخيرة لغوية حقيقية» وهذه الذخيرة تمثل تجمع Jila‏ 
للعينات اللغوية يفوق كثيرًا ما كان عليه الوضع فيما مضى. 

إن استخراج الأمثلة من الذخيرة اللغوية من شأنه أن يمثل ts‏ لغويًا 
مهما يمكن استخدامه في تحليل أعمق لمعاني المفردات وتمييزها. على سبيل 
المثال: عمل ترتيب أبجدي للكلمات المصاحبة لكلمة ما من جهة اليمين؛ ومن 
ثم يمكن عمل استقراء للأمثلة الحقيقية عن جميع التصاحبات اللغوية التي 
تأتي مع هذه الكلمة في سياق لغوي معين. وبالإضافة إلى ذلك فإن الذخائر 
اللغوية التي يستخدمها مؤلفو المعاجم تحتسوي معلومات تصنيفية حول 
مجموعة هائلة من النصوص اللغوية» مثل اسم مؤلف النصء وجنسه. 
وتاريخ النشرء والشكل اللغوي cal‏ لدرجة أن تلك النصوص تكون BELLS‏ 
تحتوي ترميز! للكلمات من حيث النوع والمعنى. وهذه المعلومات من شأنها 
أن تتيح إجراء تصنيف للمعلومات التي يتم استخراجها من الذخيرة وهذا 
يساعد المعجميين في تحديد الاستخدامات المختلفة لكلمة مافي بعض 
المجالات والأشكال اللغوية المختلفة بصورة نموذجية. 
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من خلال البرمجيات التي تقوم بحساب درجة التصاحب بين الكلمات 
(سبق الإشارة إليها في الفصل الثالث من الباب الثالث) يمكن استخراج 
مجموعات الكلمات المتصاحبة» وهذا يعني أنه بالإمكان استقراء التعبيرات 
والتصاحبات اللغوية ومعالجتها بشكل أكثر مصداقية مما سبق. فالوخدات 
اللغوية شائعة الاستخدام (phraseological)‏ من الممكن أن کون مصطلحا 
تقنيّاء وفي أحيان أخرى قد تكون Whe‏ شعبيّاء أما التصاحبات اللغوية فتعتبر 
خيطا مهما في التعرف على معنى الكلمة موضع البحث!©!. إن تمييز هذه 
التصاحبات داخل النصوص يعني إمكانية التعامل معها بشكل جيد كما يحدث 
مع الكلمات المفردة؛ حيث يتم معالجتها في المعاجم أو في بنوك المصطلحات 
الآلية» التي ati‏ لإمداد المترجمين والاستعانة بها عند الحاجة. 

وفي الوقت ذاتهء فإن صناعة paleal‏ القائمة على ذخائر لغوية تساعد 
المعجميين في استخراج التعاريف اللغوية من الذخائر اللغوية؛ كأن يتم 
استخدام التصاحبات شائعة الاستخدام في ربط المعاني المتعلقة بالكلمات معّاء 
وهذا يساعد المعجميين في تقسيم فهارس الاستخدام للكلمات إلى تصنيفات 
تمثل الاستخدامات المختلفة للكلمة؛ ومن A‏ يمكن تقديم معلومات عن معدلات 
تواتر المعاني المختلفة للكلمات من حيث معدلات التكرار. 


ثانيًا: الذخائر اللغوية والنحو 
تبر الدراسات النحوية (أو الدراسات المتعلقة بتركيب الجمل) مثلها 
كمثل الدراسات المتعلقة بعلم المفردات؛ إحدى الأمثلة الواقعية التي تشير إلى 


اعتماد .الدراسات اللغوية على الذخائر اللغوية. وتظهر أهمية الذخائر اللغوية 
في الدراسات المتعلقة بتركيب الجمل في االنقاط التالية: 

)1( تعتبر الذخائر اللغوية بمثابة تمثيل للغة بأكملها. 

(؟) باعتبار أن البيانات اللغوية التي est‏ الذخائر اللغوية بيانات 
تجريبيةء فإن الحقائة ئق اللغوية التي led‏ يمكن ١‏ ستقراؤها بالأساليب 
الإحصائية. 

قبل ثمانينيات القرن العشرينء كانت الدراسات اللغوية التجريبية 
تضطر إلى الاعتماد بصورة أساسية على أساليب التحليل الثابتة. وكان هذا 
النوع من الدراسات pih‏ وصفا دقيقا للمنظومة النحوية للغة؛ ولكن النتائج 
كان من الصعب أن she gi‏ معدلات التكرار الأعلى والأقل بشكل موضوعي. 
ومع ظهور الذخائر اللغوية المرمّزة على مستوى تركيب الجملةء والتطور 
المستمر لأدوات البحث داخل الذخائر اللغويةء أصبح من السهل إجراء 
التحليل الكمي (quantative analysis)‏ للظواهر النحوية بشكل أكبر مما 

سبق. إن التحليل الكمي للظواهر النحوية على أقل تقدير يقدم للباحثين أفضل 
ails‏ الاستخدام النحوي لتلك الظواهرء بالإضافة إلى كل درجات التحول 
التي تحدث وما إلى ذلك من معلومات. وهذه المعلومات لا تفيد فقط في فهم 
القواعد النحوية للغة ماء بل تفيد Gal‏ في دراسة أوجه الاختلاف بين اللغات 
بعضها البعض» وفي مجال تعليم اللغات. 
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إن معظم الدراسات النحوية محدودة النطاق التي اعتمدت على الذخائر 
اللغوية كانت تشمل تحليلاً ÉS‏ للبيانات؛ على سبيل المثال الدراسة التي قام 
بها العالم شميت )340 Schmidt:)‏ عن الربط بين العبارات توصلت إلى 
العديد من المعلومات الكمية عن هذه الظاهرة في ذخيرة لوب LOB‏ للغة 
الإنجليزية. وتفيد منهجية الذخائر اللغوية في إحصاء معدلات تكرار أنماط 
الجمل كافة. 

منذ خمسينيات القرن العشرين» انقسم علماء اللغة إلى قسمين كبيرين: 
القسم الأول تبنى في دراسة الظواهر اللغوية المنهج العقلي (rationalism)‏ 
والقسم الثاني استخدم الأسلوب الوصفي التجريبي في دراسة الحقائق اللغوية» 
وأولى اهتمامًا eS‏ بالإحصاء الكمي للظواهر اللغوية في الذخائر اللغوية. إلا 
أن هذين الفريقين لا ينكر أحدهما الآخر كما يعتقد البعض. ففي الحقيقةء هناك 
بعض الباحثين ممن ينتمون إلى الفريق الأول استخدموا الذخائر اللغوية في 
قياس النظريات النحوية التي تنتمي إلى المنهج العقلي. ولم يلجئوا إلى استخدام 
الذخائر اللغوية في عمل التوصيف اللغوي البحت أو توليد النظريات النحوية. 

ففي جامعة نيجمن (Nijmen)‏ الأميركية تم الجمع بين كل من المنهج 
العقلي والمنهج التجريبي في دراسة النحو لبناء نظرية نحوية صورية 
(formal Grammar)‏ تخدم المنهج العقلي. وبعد ذلك تم اختبار تلك النظرية 
النحوية على الواقع اللغوي GRAM‏ في الذخائر اللغوية الإلكترونية. وكان 
ذلك عن طريق call‏ بالاطلاع على آراء جمهور النحاة في شرح تلك 
act sill‏ واستخدام آرائهم في تصميم نموذج للنحو الشكلي» وبعد ذلك تم تغذية 
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برمجية التحليل النحوي الحاسوبية بهذا النموذج» واستخدامها في تحليل 
الذخيرة اللغوية؛ للوقوف على مدى قدرة البرمجية مستعينة بهذا النموذج في 
تحليل البيانات اللغوية المؤجودة بالذخيرة. وعلى الأساس التجريبي لنموذج 
التحليل النحوي هذا تم تصويب هذا النموذج من خلال الأجزاء التي لم يتم 
تحليلها أو التي CAI‏ بصورة خاطتة. 

وهناك تفكير آخر للاستفادة من الذخائر اللغوية في عمل التحليل 
النحوي؛ وذلك عن طريق الاستعانة بذخيرة Sp‏ على مستوى بنية الجمل» 
ومن خلال البيانات الإحصائية يتم تصنيف القواعد النحوية الواقعية الموجودة بها. 
ويمكن الاطلاع على مثال عن هذه المنهجية في الفصل الثاني من الباب الرابع. 
ÉG‏ الذخائر اللغوية وعلم الدلالة 

تعرفنا من خلال الفصول والأبواب السابقة أنه يمكن الاعتماد على 

ذخيرة لغوية في استقراء الحالات التي تظهر فيها كلمة ما للتعصرف على 
معناها. وهذه المنهجية تستخدم بصورة أساسية في مجال علم المعجمية. 
ولكن بصورة عامة يمكننا القول: إن الذخائر اللغوية تلعب دورًا مهما في 
خدمة علم الدلالة؛ حيث يبرز دورها في إمداد علم الدلالة بشروح موضوعية 
تعتمد على أسلوب ديناميكي يتغير حسب طبيعة التغيرات اللغوية. ويتمشل 
أول دور مهم للذخائر اللغوية في علم الدلالة في إمكانية حصر المعاني 
الإضافية للكلمات بشكل موضوعي وفقا للواقع اللغوي. وقد سبق أن AÍ‏ 
العالم اللغوي منت 1(Mindt:1491)‏ 7 إلى أن أقسام معاني الكلمات في ale‏ 


° 


الدلالة والمعاني الأكثر تواترً! في البناء اللغوي يتم تقريرها ووصفها وققا 
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لإدراك علماء اللغة» وهذه هي المنهجية العقلية في التعامل مع اللغة. ولكن 
الحقيقة أن تمييز المعنى ينبغي أن ينطلق من استقراء السياقات والأبنية 
النحوية للجمل وعلم الصرف وخصائص علم العروضء واستخدام الذخائر 
اللغوية من شأنه أن يقدم أمثلة موضوعية على تلك الفزوق الدلالية. 

أما الاستخدام الثاني المهم للذخائر اللغوية في علم الدلالة هو تقديم بنية 
أكثر Kaula‏ فيما يتعلق بالتصنيف الضبابي (yfuzzy categor)‏ وفكرة التحول 
التدريجي في المعنى. ففي علم اللغة النظري يُنظّر عادة إلى التصنيف 
باعتباره تقسيما ثابتا لا يمكن تغييره. وهذا يعني أنه عند التعامل مع كلمة 
معينةء إما النظر إليها على أنها تنتمي إلى نطاق تصنيفي معين» أو لا تنتمي 
ليه ولكن الدرشات التي أجريت في فرع لم Aa call‏ قري أن 
فئات الإدراك لا تتصف بالثبات» بالإضافة إلى أن ea‏ 
إلى حد بعيد. ولذلك» فالمشكلة لا تكمن في إقرار ما إذا كانت كلمة تنت تنتمي إلى 
تصنيف معين أم لا؟ ولكن في احتمال ظهور هذه الكلمة ضمن تصنيف ما 
مقارنة مع احتمال ظهورها ضمن تصنيف آخر. ولا يمكن الحصول على 
هذه المعلومات الاحتمالية بأي حال من الأحوال إلا باستخدام الذخائر اللغوية 
التي تمثل الواقع اللغوي الحقيقي. 
رابعا: الذخائر اللغوية في مجال علم اللغة التداولي وتحليل الخطاب 

الدراسات التي تهتم بتحليل الذخائر اللغوية على أساس ale‏ اللغة 
التداولي وتحليل الخطاب حتى الآن قليلة إلى a‏ بعيد. والسبب الرئيس في 
ذلك يرجع إلى أن مصدر التحليل على المستويين التداولي والخطابي يتمد 
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من العلاقة السياقية بين الجمل بعضها البعض. وعلم اللغة التداولي دائمًا ما 
يُطلق عليه "علم المعنى السياقي٠‏ إلا أن النصوص ik‏ في الذخائر 
اللغوية تفقد جزءً! كبيرًا من السياق الخاص بها. والسبب في ذلك يرجع إلى 
أن الذخائر اللغوية تتجه إلى جمع عينات لغوية صغيرة الحجم وليس 
Ca pai‏ كاملة. هذا بالإضافة إلى أن العينات النصية التي تجْمّع يتم حذف 
السياقات الاجتماعية والنصية الخاصة بها. 

وقد تركز جزء كبير من الدراسات المتعلقة بعلم اللغة التداولي 
والمجالات المتعلقة به خارج الصين على اللغة الشفهية. os‏ ذخيرة لندن- 
لوند (Lund-London)‏ الذخيرة الوحيدة التي تضم نصوصا حوارية. ولذلك 
فإن غالبية تلك الدراسات تم إنجازها على هذه الذخيرة. وكانت أهم 
الإسهامات التي قدمتها تلك الدراسات هي فهم الكيفية التي يتم بها الحوار 
«cg gall‏ وعلى الأخص العلاقة بين الكلمات والتعبيرات اللغوية والجمل 
المكوّنّة للحوار. وقد قدمت العالمة ستنستورم [71](Stenstorm:1987)‏ مسن 
خلال الدراسة التي قامت بها على ذخيرة لغوية تفسيرًا aS‏ من وجهة نظر 
علم التصنيف حول عينات من الحوارات التي يبادر الشخص بإصدارها 
وأخرى يكون الشخض مشاركا من خلالها في حوار طبيعي. على سبيل 
المثال» في أثناء استقرائها للرسائل اللغوية التي تحمل كلمة right”‏ وجدت 
أن تعبيرة “all right"‏ دائمًا ما تأي بين الحدود الفاصلة بين مرحلتين من 
مراحل الحوار؛ وأن “that's right”‏ غالبًا ما تستخدم في رسالة لغوية تحمل 
معنى التوكيدء "that's right’, it's right” Ld‏ فتحملان معنى التجاوب 
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الحواري بالإضافة إلى التعبير عن معنى التواضع. وهذا الأسلوب الكمي في 
دراسة أساليب الحوار Bae‏ من M‏ المعرفة البشرية تجاه عدد من 
التصرفات اللغوية. وذلك GY‏ تلك النتائج قدمت شروحًا تخصصية بما في 
ذلك الخيارات التي تكون أمام المتحدث من خلال وجهة النظر التداولية وأي 
من تلك الخيارات أكثر قياسية وأيها قليل التداول. 


خامسا: الذخائر اللغوية وتعليم اللغات 

عند تأليف المقررات الخاصة بتعليم اللغة Laila‏ ما يكون هناك اتجاهان 
مختلفان» أحدهما يمثل المنهجية التجريبية وآخر يمثل المنهجية العقلية. فمن 
ناحية نجد أن العديد من المقررات الدراسية نخدم الجمل المُؤلفة؛ حيث 
تعتمد تلك الجمل على إدارك من يقوم بتأليفهاء وفي الوقت نفسه تمثل مواد 
لغوية سبق استخدامها. ومن ناحية أخرىء نجد أن الأمثلة التي تقدمها المعاجم 
والمؤلفات المساعدة في تعليم اللغة؛ التي تم بناؤها على ذخيرة كولينز 
كوبويلد (Collins-COBUILD)‏ تم جمعها على العكس من ذلك باس تخدام 
المنهج التجريبي. وقد اعتمدت الأمثلة التي تم تقديمها من خلال تلك التجربة 
على مصادر حية من الذخيرة اللغوية أو من مصادر لغوية أخرى. 

إن الذخائر اللغوية pilaa E‏ مهمة للأمثلة في عملية تعليم اللغة؛ 
وذلك لأن الدارسين في المرحلة المبكرة من دراسة اللغة يكونون في حاجة 
إلى الجمل والمفردات الحقيقية؛ حيث إنهم سيتعرضون لهذه المفردات في 
أثناء اطلاعهم على النصوص التحريرية الحقيقية لتلك اللغة وسيحتاجون إليها 
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في أثناء عملية التواصل اللغوي. وهذه البيانات التجريبية لها الأهمية نفسها 
في تعليم اللغة للناطقين بها أو للدُجائب؛ حيث تتجاوز فائدتها نطاق المعنى 
البسيط الذي يدور حول الاستخدام الواقعي للغة. وهناك عدد غير قليل من 
العلماء اعتمدوا على بيانات الذخائر اللغوية في توجيه النقد لمقررات تعليم 
اللغة الموجودة حاليا. 
وكانت الطريقة التي اتبعوها في ذلك متشابهة إلى ia‏ بعيد؛ حيث 
استخدموا ذخيرة قياسية للغة الإنجليزية مثل ذخيرة لوب LOB‏ وذخيرة 
لندن- لوند (Lund~London)‏ في عمل تحليل لمحتوى المقررات الدراسية 
أو قوائم الكلمات المستخدمة فيها. ثم قارنوا مجموعتي النتائج التي توصلوا 
إليها. فتوصلت معظم الدراسات إلى أن هناك اختلافات جوهرية بين محتوى 
تلك المقررات الدراسية والاستخدام الحقيقي الذي يمارسه به أهل تلك اللغة. 
كما أن هناك بعض المقررات الدراسية أهملت جوانب متعددة لبعض أوجه 
الاستخدام اللغوي المهمة. لدرجة أنه في بعض الأحيان تم التضحية بأكثر 
. الأساليب شيوعا في اللغة» في مقابل إظهار أساليب أخرى ليس لها مثل هذه 
الدرجة من الشيوع. وكانت النتيجة التي استخلصها كل من العالمين الشهيرين 
منت (Mindt)‏ وكينيدي (Kennedy)‏ وغيرهما أن المقررات التي لا تقوم 
على أساس من البيانات اللغوية التجريبية من المؤكد أنها ستسير في الطريق 
الخطأ. فمن الضروري اللجوء إلى استخدام الذخائر اللغوية في توجيه عملية 
تأليف المقررات الدراسية؛ ومن 站‏ إعطاء مزيد من الاهتمام للحقائق اللغوية 


الأكثر شيوعا من حيث الاستخدام. 
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وهناك منهجية خاصة في تعليم اللغات الأجنبية Ds‏ عليها اسم 'تعليم 
اللغة للأغراض الخاصة" وتشير تلك الطريقة إلى تعليم اللغة لأغراض 
تختص ببعض مجالات الاستخدام اللغوي» وهذا ما يتعارف عليه الجميع باسم 
تعليم اللغات الأجنبية لأغراض تخصصية؛ مثل تعليم اللغة الإنجليزية لطلاب. 
الطب. إن بناء ذخائر لغوية متعددة المجالات من الممكن أن يساهم في تعليم 
اللغة لتلك الأغراض الخاصة JS‏ في تخصصه. وقد سبق أن قامت جامعة 
العلوم والتكنولوجيا بهونج كونج ببناء ذخيرة للغة الإنجليزية مكوّنة من مليون 
كلمة. وكانت العينات المستخدمة منتقاة من المقررات الدراسية التي 
يستخدمها طلاب تخصص الحاسب الآلي. وبإمكان تلك ال ذخيرة أن ALB‏ 
للطلاب العديد من المواد في المجالات التخصصية؛ بما في ذلك قوائم 
المفردات والبيانات الكمية عن طرق الاستخدام اللغوي. وتعمل هذه المواد 
على الاحتياجات الخاصة للطلاب في هذا المجال التخصصيء وهذا بالطبع 
أفضل من تلك التي يتم استخراجها من ذخائر لغوية في المجالات العامة. 
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الفصل الثاني 
إحصاء أنماط الجمل في اللغة الصينية 
والدراسات HGN‏ عليه 


تم ذلك في إطار مشروع رسالة دكتوراه تم تمويلها من صندوق اللجنة 
القومية للتعليم بإشراف الأستاذ الدكتور جاو شو خوا الأستاذ بجامعة اللغات 
والثقافة ببكين» وقد نوقشت الرسالة واعتمدت من قبل مجموعة من الخبراء 
في بكين في العاشر من شهر إبريل عام 490 ATV‏ 

-١‏ كانت الأهداف الرئيسة من دراسة إحصاء أنماط الجمل في اللغة 
الصينية ما يلي: 

(أ) إجراء تقطيع على مستوى الجمل لمواد لغوية Vs‏ من نصوص 
المقررات الدراسية الصينية في المرحلتين الابتدائية والإعدادية 
بالإضافة إلى المقررات الدراسية لتعليم اللغة الصينية للأجانسب 
بجامعة اللغات والثقافة» وقد وصلت النصوص التي تم تقطيعها إلى 
أربعة ملايين رمز صينيء ومن نتائج التقطيع تم عمل منظومة 
لتصنيفات الجمل في اللغة الصينية الحديثة. Sling‏ على ذلك» تم 
إحصاء معدل تكرار كل نوع من الجمل داخل الذخيرة؛ ومن a5‏ 
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أمكن تقديم بيانات علمية يمكن الاعتماد عليها في الدراسات متعددة 
الجوانب الخاصة بتعليم اللغة الصينية للأجانب» وتصميم المقررات» 
ووضع-معايير الاختبارات اللغوية» بالإضافة إلى الدراسات التقابلية 
بين اللغة الصينية وغيرها من اللغات. 

(ب) تقديم ذخيرة لغوية AÉ ga‏ تحتوي البيانات اللغوية الضرورية 
لاستخدام علماء اللغة والعاملين في مجال تعليم اللغة الصينية. 

(ج) تقديم مصادر أساسية تستخدم في مجالات التمييز الآلي لكل من 
حدود التعبيرات اللغوية» وفصل عناصر الجملة آليّاء بالإضافة إلى 
تحليل التركيب النحوي للجمل الصينية آليّا وغير ذلك من الدراسات 
المتخصصة في مجال المعالجة الآلية للمعلومات باللغة الصينية. 

؟ - وقد حقق هذا المشروع البحثي النتائج التالية: 

(أ) عمل تقطيع على مستوى الجمل لمحتؤيات ذخيرة من أربعة ملايين 
كلمةء وتخزين الناتج في صورة رقميةء بالإضافة إلى تحويلها إلى 
بطاقات ورقية تصل إلى مائتي ألف بطاقة ASM‏ من الجمل 
اللغوية مُفهرسة حسب نوع الجملة» وموضنّح عليها المعلومات 
التوثيقية الخاصة بها. 

(ب) عمل تصنيف مشفوع بالإحصاءات عن أنماط الجمل ATS‏ 
للمادة اللغوية التي تخص نصوص اللغة والأدب المستخدمة في 
المرحلة الابتدائية؛ التي تصل إلى مليونين وثمانمائة رمز وتقسيمها 
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إلى ثلاثة مستويات مبتدئ ومتوسط ومتقدم. وفي الوقت نفسه عمل 
تحليل لتركيب الجمل البسيطة التي تم استخراجها وتخزين النتائج 
في شكل رقمي» وبذلك تم تكوين بنك عن أنماط الجملة البسيطة في 
اللغة الصينية الحديثة. وقد وصل عدد الجمل البسيطة التي تم 
تخزينها إلى Alen ١577537‏ وبإمكان بنك أنماط الجمل المشار إليه 
أن pi‏ معلومات عن الخصائص التركيبية لكل نوع من أنواع 
الجمل الصينية والأمثلة المقابلة لهذه الأنواعء بالإضافة إلى 
المعلومات التالية: . 

-١‏ معدلات استخدام الأنواع المختلفة للكلمات الصينية في الأماكن 
التي تحتلها عناصر الجملة الصينية الستة وهي المسند إليهء 
والمسندء والنعت» والحالء ومُكمّل المعنى» بالإضافة إلى توجهات 
المعنى التي يشير إليها كل من النعت والحال والمُكمّل في الجملة. 

ene oe أنواع الكلمات التي تظهر بين حدود كل من المسند‎ -ï 
في الجملة ومعدلات ظهورها.‎ 

۳- ترتيب العناصر في كل من الحال المُوستّع والنعت المومتع. 

-٤‏ الجزء الحاوي للرمز AU"‏ في النعت المُوَسّع» الجزء الحاوي 
للرمز "HA"‏ في الحال الموسّع. 

ه- الأجزاء التي تحتوي الأدوات المساعدة المبَيّنة لحالة الفعل 
"ST, 4, it, KE‏ وما إلى ذلك. 


205 


- الأمثلة التي تحتوي فعل ومفعول به وما إلى ذلك من معلومات. ٠‏ 

(ج) عمل تحليل جزئي لتراكيب الجمل التي تحتويها نسصوص مادة 
المطالعات الصيئية بجامعة اللغات والثقافة؛ التي يصل حجمها إلى 
٠٠٠‏ كلمة:ء بالإضافة إلى انتقاء الجمل السصعية من تلك 
النصوص وعمل تحليل لجزء منها على مسئويات ثلاثة: ممستوى 
تركيب الجمل» ومستوى ANN‏ ومستوى التداولية. وعمل إحصاء 
عن معدلات: استخدام بعض أنماط الجمل وبعض الأفعال ذات 
الطبيعة الخاصة. 

(د) عمل تصنيف للجمل التي ظهرت فسي نصوص اللخ للغة والأدب 
للمرحلة الابتدائيةء نتج عن ذلك التصنيف (المسرد الإحصائي 
لمعدلات تكرار أنماط الجمل الصينية)ء و(مسرد أنماط الجمسل 
الشائعة في اللغة الصينية الحديثة). وهذين المسردين لهما قيمة 
مرجعية عالية في مجالات الدراسات التقابلية بين أنماط الجمل في 
اللغة الصينية واللغات الأخرى» ووضع معايير اختبارات تحديد 
مستوى إجادة اللغة الصينيةء بالإضافة إلى تأليف مقررات اللغسة 
الصينية للأجانب. على سبيل المثال» Lad‏ مضى كانت مقررات 
تعليم اللغة الصينية للأجانب في أثناء شرح JS‏ المبين للحالة 
الشعورية (أي المكمل الذي يحتوي الرمز “24 Ss‏ عليه Cad‏ 
Sill‏ المبين للدرجة) sale y‏ ما كانت تلك المقررات تشرح هذا 
النوع من المكملات من خلال مثال توضيحي عن طريقة تركيب 
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هذا المكمل: 'مسند إليه+ فعل+ مفعول )4+ تكرار للفعل+ 得‏ + 
المكمل" مثل "1155:5144" بمعنى "هو يكتب الرموز الصينية 
بسرعة" وفي الحقيقة أن هذا التركيب قليل التواتر في الاستخدام 
اللغوي الواقعي» ففي نصوص اللغة والأدب للمرحلة الابتدائية التي 
تصل إلى ۲۸٠٠٠٠١‏ رمز لم يظهر هذا التركيب ولو مرة واحدة. 
ولذلك يرى فريق البحث أن الأمر يحتاج إلى إعادة نظر في مدى 
ضرورة شرح هذا النوع من الجمل في المستوى المبتدئ من 
مستويات تعليم اللغة الصينية للأجائب. | 

-٣‏ وقد توصل فريق البحث من خلال هذه الدراسة إلى القواعد 

التالية في تعريف الجملة: 

人)‏ ضرورة وجودها في إطار بنائي متكامل. 

(ب) تعبيرها عن معنى متكامل. 

؛- وقد قابل فريق البحث عددًا كبيرًا من الجمل المركبة في أثناء 
عملية تقطيع نصوص الذخيرة إلى جمل» وقد عالجوا تلك الجممل 
كما يلي: 

(أ) إذا كانت الجمل الفرعية المُكوّنة للجملة المركبة يمكن أن تنستقل 
بذاتهاء يتم التعامل معها على أنها جملة بسيطة (مع إغفال أدوات 

الربط). : 
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(ب) إذا كانت إحدى الجمل الفرعية يمكن أن تستقل في صورة جملة 
ALIS‏ يتم التعامل معها على أنها جملة بسيطةء والتعامل مع الجزء 
الباقي من الجملة على أنه جملة ناقصة. 

(e)‏ إذا كانت الجمل الفرعية المُكوّنة للجملة المركبة لا يمكن أن 
تستقل بذاتهاء يتم التعامل مع تلك الجملة على أنها جملة مركبة. 
بالإضافة إلى أن الجمل الناقصة والجمل المختصرة BREA‏ 
المركبة لم يتم احتسابها في نتيجة إحصاء أنماط الجمل الصينية. 

في المادة اللغوية الممثلة لنصوص اللغة والأدب في المرحلة الابتدائية 

تم تقطيع ١5753417 orc‏ جملةء وعدد ١77‏ جملة مختصرة»ء وعدد OVA‏ جملة 
ناقصة (مثل: "RRIF‏ بمعنى 'يعود إلى المنزل مساء“ 
و E"‏ 3751#" بمعنى "ما إن فتح فمه وبدأ في "他 抬头 一 看 "9 CUS‏ 
بمعنى "ما إن رفع رأسه ليرئ')؛ وعدد ٠٠٠١‏ جملة مركبة (مثل 
“有 过 一 道 湾 ， 又 过 了 一 道 湾‏ بمعنى "خرج من متاهةء ليدخل في متاهة 
أخری“ أو " ”他 一 会 儿 弯 弯 腰 ， 一 会 儿 压 压 腿‏ بمعنی " يشي وسطه 
تارة» UL,‏ ساقه تارة "只 要 命令 一 下 他 们 ， 就 按 动 扳机 "站 "5 六 si‏ 
بمعنى "ما إن تصدر إليهم الأوامز» حتى يشغلوا لوحة الستحكم"» وما إلى 
ذلك). 

انحصرت الدراسة التي قام بها فريق البحث عن أنماط الجمل على 

دراسة أنماط تراكيب الجمل الصينية. وكانت القرائن التي يتم الاعتماد عليها 
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في التمييز بين أنماط الجمل المختلفة تتمثل في طبيعة الأجزاء المُكوئة للجملة 
وطريقة بناء الجملةء Ley‏ في ذلك ترئيب الكلمات داخل الجملة وعدد العناصر 
المكونة للجملة؛ بالإضافة إلى أنواع الكلمات ABCA‏ لتلك العناصرء وما إلى ذلك. 

ه- وقد تعمق فريق البحث في الدراسة pg‏ دراستين تكميليتين عن 
خصائص تركيب الجمل في اللغة الصينية: 

(أ) على الرغم من أن تقسيم أنماط الجمل قد تم وفقا لمجموعة من 
الأدلة عن الخصائص التركيبية للجمل» فإن فريق البحث لم يستبعد 
دراسة العلاقة الدلالية بين أجزاء الجملة عند الضرورة. على سبيل 
المثال في الجملة الإسنادية» على الرغم من أن تركيب جميع الجمل 
صغير"» فإن العلاقة الدلالية بين العناصر المكونة لتلك الجملة غير 
موحدة؛ ومن الممكن تصنيف هذه الجملة إلى خمسة أنماط فرعية 
مختلفة. على سبيل المثال إذا كان المسند الصغير عبارة عن فعل 
أو تعبيرة فعلية مكوّنة من فعل ومفعول» تكون العلاقة الدلالية بين 
العناصر الثلاثة لهذه الجملة كما يلي: 

558 . عندما يكون المسند إليه الكبير واقع عليه الفعل. 

8» عندما يكون المسند إليه الصغير واقع عليه الفعل. 

YSP‏ عندما يكون المسند إليه الصغير جزءًا من المسند إليه الكبير. 


«ASP‏ عندما يكون المسند إليه الكبير كلمة معبرة عن المكان. 
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ASP‏ عندما يكون المسند إليه الصغير مشير! إلى المسند إليه الكبير. 
خد هو معروف لدى الجميع SY‏ النعت جِزءًا من 
ol jal‏ الجملة؛ نظر! إلى عدم إمكانية تأثيره في البنية الأساسية 
للجملة. ولكن في أثناء التطبيقات الحقيقية اكتشف فريق البحث أن 
هناك بعض الجمل لا يستقيم لها المعنى إذا حُذف منها النعت مثل: 
HAT‏ بمعنى. 'رأى يه جونغ تنينا" ولكن إذا أضيف النعت 
تختلف الجملة تمامًا فشصبح: 时 公 看 见 了 一 条 真 龙‏ بمعنى 
آرأى يه جونغ تنينا i‏ أيضنا U LOA‏ 
"RSET ۸~‏ بمعنى: "باع كومة كبيرة من الجرائد"“ 

و IME‏ ۲ 3" بمعنى 'تعرض لخوف وهمي"؛ وما إلى ذلسك. 
ولذلك فإن النعت يشبه الحال في كونه ذا أهمية في تمييز أنماط 
الجمل. ولذلك فإن تركيب هذا النمط من الجمل ينبغي أن يوضع 
بالصيغة التالية: "مسند إليه+ فعل+ الأداة 了‏ + نعت+مفعول به" 
ومثال آخر يتمثل في الجمل التي تحتوي الرمز "8" المُعبّر عن 
معنى الملكية أو الوجود مثل " 那 姑 娘 有 一 双 漂亮 的 大 眼睛‏ " 
بمعنى 'تلك الفتاة لها عينان واسعتان جميلتان"؛ ويكون تركيب هذه 
الجملة كما يلي: "مسند إليه + الرمز 有‏ + نعت (مكون من عدد 
وكلمة كمية وكلمة وصفية) + مفعول به" ويرجع ذلك إلى أنه في 
هذا النوع من الجمل لا يمكن الاستغناء عن النعت الذي يسبق 
الكلمة المحورية في المفعول به. فنحن لا يمكننا أن نكتفي بالقول: 
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那 姑娘 有 眼睛 '‏ " بمعنى "تلك الفتاة لها عينان". وفي الحقيقة أن 
معنى هذه الجملة لا يعبر عن الملكية بقدر ما يؤكد معنى الوصف 
في الجملة مثل "312 .× AGI‏ بمعنى "إن عيني 
تلك الفتاة واسعتان وجميلتان". | 
وقد جمع فريق البحث بين منهجية التحليل حسب عناصر A hal‏ 
ومنهجية التدرج في التحليل. ففي أثناء تقسيم عناصر الجملة استعانوا بنمط 
التركيب " نعت + مسند إليه + حال + فعل + مكمل + نعت + مفعول به“ 
. مع اعتبار أن هناك علاقة تدرج بين العناصر وبعضها البعض» وأنها لا تقع 
في مستوى واحد. وعلاقة التدرج هذه تظهر خلال عملية تحليل الجملة. 
؟- فالجملة يتم تقسيمها في البداية إلى جزأين كبيرين هما المسند 
إليه والمسند. يتكون جزء المسند إليه من 'نعت + مسند إليه“ أما 
جزء المسند فيحتوي "حال + فعل + مكمل + مفعول day‏ هذا 
بالإضافة إلى أن جزء المفعول به من الممكن أن يكون على النمط 
" نعت + مفعول به" كما يظهر من الشكل التالي: 


جزء المسند إليه: تحث + مسند إليه 


nn 
المسند: حال + فعل + مكمل + جزء المفعول يه‎ ¢ jo 


9 


+ مفعول يه 
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(أ) من الممكن أن تدخل التعبيرات اللغوية ضمن بنية الجمل كوحدة 
متكاملة؛ os‏ بذلك عنصرا من عناصر الجملة. إلا أن التركيب 
الداخلي لهذه التعبيرات اللغوية ينبغي تحليله خارج إطار تحليل 
الجملة؛ وذلك GY‏ البنية التركيبية لتلك التعبيرات اللغوية BY‏ في 
المستوى البنائي نفسه الذي يحكم عناصر الجملة الستة (المسند إليه: 
والمسند والمفعول به» والنعت» (TE «Sally‏ 

(ب) جميع تراكيب التعبيرات اللغوية المكوّنة من نعت ومنعوت (يكون 
نمط التركيب داخل الجملة على هيئة " نعت + مسند إليه"؛ أو "حال 
+ فعل + مكمل + مفعول 45"( يتحدد التدرج البنائي لها انطلاقا من 
الكلمة المحورية في التعبيرة اللغؤية؛ أي من اليمين إلى اليسار؛ أي 
أن التوسع في المعنى يحدث من الوحدة الصغرى في اتجاه الوحدة 
الكبرى. وجميع التعبيرات اللغوية التي تتكون من فعل ومكمل» أو 
فعل ومفعول» أو فعل ومفعول ومكملء أو فعل ومكمل ومفعول؛ 
يتحدد التدرج البنائي لها انطلاقا من الكلمة المحورية؛ أي من 
اليسار إلى اليمين» ويحدث التوسع في المعنى بدا من الوحدة 
الصغرى وفي اتجاه الوحدة الكبرى. إن الالتزام بهذه المبادئ من 
شأنه أن Caye Aa‏ شاملاً لمراحل تحليل الجملة الصينية. . 
وفيما يلي نشرح مراحل تحليل الجملة الصينية من خلال مثال على 
جملة ذات مسند فعلي: 
المثال " "他 哥哥 的 同学 昨天 在 书店 买 到 一 本 新 出 版 的 好 词典‏ 
بمعنى ' اشترى صديق أخيه الأكبر أمس من المكتبة إصدار! حديثا لمعجم جيد". 
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الخطوة الأولى: البدء بتحديد الكلمة المحورية في المسندء وهي الفعمل 
الخطوة الثانية: طبقا للحدود الفاصلة بين جزأي المفعول به والمسندء 
يتم البحث عن عبارتي الصفة والموصوف الواقعتين في بداية الجملة 
ونهايتهاء ثم الانطلاق من الكلمة المحورية وتمييز التركيب من اليمين إلى 
اليسارء ويتم التوسع وفقا لتدرج البناء. على سبيل المثال: 
"他 哥哥 "5‏ في 489۴1 هي تعبيرة من صفة 
a‏ 


他 哥哥 的 ”同学 
هي تعبيرة حالية كما‎ "一 本 新 出 版 的 好 词典 ”3 "新 出 版 " 5 sa 
يوضح الرسم التالي:‎ 


一 本 ”新 出 版 的 好 HR 


وإلى هذا المستوى يكون المسند إليه والمفعول به قد تم تحليلهما. 
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الخطوة الثالثة: يتم الانطلاق من الفعل باعتباره الكلمة المحورية في 
المسندء وتمييز التركيب من اليسار إلى اليمين» مثل: 


买 到 一 本 新 出 版 的 好 词典 
الخطوة الرابعة: الانطلاق من تعبيرة الفعل والمكمل والمفعول؛ وتمييز‎ 
التركيب من اليمين إلى اليسار. مثل:‎ 


rR ERG LAMM 


الخطوة الخامسة: الجمع بين جزأي المسند إليه والمسند؛ أي تكوين 
الجملة كاملة؛ مثل: 


tTO EZ 昨天 在 书店 X 到 一 本 新 出 版 的 好 词典 


ioe Gree 
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الفصل الثالت 
الأبحاث المتعلقة بعلم المعجمية 


ale‏ المعجمية هو أحد أفراع ale‏ المفردات التطبيقي» ويهتم بدراسة 
مبادئ تأليف المعاجم والتطبيقات المتعلقة بهذا المجال» بمعنى إجراء التأليف 
المعجمي من خلال جمع الوحدات المعجمية (lexical item)‏ ومقارنتها 
وشرحها وتصنيفها. إن الموضوعات الرئيسة التي يهتم بها علم المعجمية هي 
معانى الكلمات واستخداماتها. ويختلف علم تأليف المعاجم عن غيره من 
المجالات المختلفة لعلم اللغة في الغرب في أن هذا العلم اعتمد منذ نشأته 
وعبر مراحل تاريخه المختلفة على المنهج التجريبي القائم على الذخائر 
اللغوية. ففي عام 1755 اعتمد العالم جونسون (Johnson)‏ على ذخيرة لغوية 
في جمع الاستخدامات الحقيقية للكلمات؛ Cus‏ جعل من تلك IBY)‏ مادة 
لتأليف معجمه للغة الإنجليزية. وفي العقد الأخير من القرن الشامن عشرء 
اعتمد معجم أكسفورد للغة الإنجليزية على جمع كمية هائلة من uasail‏ 
كأساس لتأليف المعجم؛ حيث قدمت تلك النصوص إلى أكثر من ثمائمائة 
متطوع قاموا بقراءتها واستخراج أمثلة عن الكلمات التي سبق تحديدها لهم 
وكتابة تلك الأمثلة في بطاقات: استشهاد ورقية. إلا أن هذه الطريقة في العمل 
تختلف WAS‏ عن المنهجية امتبّعة Mla‏ أولاً: لأن تلك النصوص المبكرة 
لتكوين الذخائر اللغوية لم تكن atid‏ للواقع اللغوي؛ بالإضافة إلى أن هؤلاء 
المتطوعين كانوا لا يهتمون إلا بالاستخدامات الخاصة للوحدات اللغوية التي 
يبحثون عنهاء ولم يهتموا بالاستخدامات الشائعة لتلك الكلمات. ثانيًا: OY‏ 
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تطور تقنيات الحاسب الآلى في عصرنا الحالي قد أتاح للدراسات المعجمية 
القائمة على ذخائر لغوية تميزا غير مسبوق يخرج عن نطاق توقعات 
السابقين في هذا المجال؛ على سبيل المثال من الممكن تصميم ذخيرة لغوية 
ذات تمثيل لغوي لمنظومة اللغة بأكملهاء كأن تحتوي مواد شفهية بكمية 
كافية» والقدرة على جمع كميات هائلة من النصوص اللغوية وتخزينها 
وإدارتهاء بالإضافة إلى إتاحة أدوات بحث وإحصاء سهلة الاستخدام يمكن 
الاعتماد عيلهاء وغير ذلك من التطبيقات. ومقارنة بالأسلوب اليدوي» يستطيع 
الحاسب الآلي البحث عن جميع الأمثلة التي تحتوي كلمة معينة داخل ذخيرة 
لغوية يبلغ حجمها عشرات الملايين من الكلمات بسهولة شديدة ودون أن 
يغفل مثالا واحذاء بالإضافة إلى قدرته على توليد ملف مُفَيْرس لتلك الأمثلة. 
بالإضافة إلى ذلك يستطيع الحاسب الآلي أن يستخدم أساليب أكثر تعقيدًا من 
تلك التي يستخدمها الإنسان في تحليل أية علاقة من علاقات الارتباط بين 
الكلمات. على سبيل المثال عندما يصل عدد مرات ظهور كلمة معينة داخل 
الذخيرة اللغوية إلى آلاف المرات» إذا تم الاعتماد على الإنسان في Se‏ هذه 
المرات» بالإضافة إلى عمل إحصاء للكلمات التي تظهر مع تلك الكلمة يمينا 
ويسارًا في حدود أربع كلمات وتصنيفهاء فإن هذا العمل سيكون في إطار 
المستحيل. أما الآن فيمكن إنجاز هذه المهمة في دقائق معدودة باستخدام أحد 
: أجهزة الحاسوب. 

ولذلكء فإن استخدام الحاسب الآلي بدعم من ذخيرة لغوية ذات نطاق 
واسعء من الممكن أن يساهم في إجراء بحوث استقصائية أكثر عمقا وأكثر 
تعقيدذا حول مجموعة الإشكاليات التي يهتم ببحثها alo‏ المعجميةء وهذا ما لم 
يكن متاحًا من خلال العمل اليدوي فيما مضى. 
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مبكر! في الستينيات من القرن العشرين» صممت دار نشر هيريتاج 
(Heritage)‏ الأميركية ذخيرة [73]AHI‏ لتأليف معجم لطلاب المرحلة 
الإعدادية. ولكي تضم هذه الذخيرة الكلمات التي يستخدمها الطلاب بصورة 
حقيقية؛ أي لكي تكون هذه الذخيرة AB‏ للواقع اللغوي الذي صُممّت من 
calal‏ تم تصميم هذه الذخيرة بعناية فائقة Lad‏ يتعلق بطريقة جمع عينات 
النصوص اللغوية. فقد قام مؤلفو الذخيرة بإجراء دراسة اس تطلاعية دقيقة 
وواسعة النطاق لتحديد المواد التي يتحتم على الطلاب الأميركيين قراءتها 
وتلك التي Osh‏ على قراءتها في إطار ٠١545‏ نوع من المطبوعات 
الرسميةء ثم تم اختيار عينات عشوائية من تلك المواد في حدود عشرة آلاف 
عينةء على ألا تقل العينة الواحدة عن ٠٠١‏ كلمةء ليصل بذلك حجم الذخيرة 
إلى خمسة ملايين كلمة. بالإضافة إلى ذلك؛ فإن تلك النصوص تنتمي إلى 
YY‏ موضوعًا؛ ومن É‏ أمكن التوصل إلى عمومية استخدام الذخيرة. وعلسى 
هذا الأساس» لم تكتف دار نشر هيرتاج بإصدار معجم طلاب Ate yall‏ 
الإعدادية فقط بل نشرت في = ١‏ نتيجة الدراسة الإحصائية عن 
معدلات استخدام الكلمات داخل ذخيرة AHI‏ التي قام بها العالم كارول 
وفريقه البحثي”. 


أما معجم كولينز كوبويلد (ins CobuildColl)‏ الكبير للغة 
الإنجليزية!75! الذي eiil‏ أنه أول معجم على مستوى العالم يتم تأليفه 
باستخدام الحاسب الآلي» فقد تم الانتهاء من إصداره عام ۱۹۸۷ بدعم من 
ذخيرة قاعدة البيانات اللغوية الدولية الصادرة بالتعاون بين دار نشر كولينز 
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وجامعة برمنجهام المسماة اختصارًا بذخير 3 كوبويلد I COBUILD‏ التي 
وصل حجمها إلى عشرين مليون كلمة. وقد تم بناء الذخيرة بتمويل من دار 
نشر كولينزء أما إدارة تحرير المعجم وتصميم الذخيرة فقد تولى مسئوليته 
allali‏ سنكلير من جامعة برمنجهام البريطانية. وقد تم الاهتمام بشدة في أثناء 
تصميم ذخيرة كوبويلد أن تكون جميع المجالات iiie‏ داخل الذخيرة» وأن 
تكون الذخيرة مناسبة لمتطلبات العمل المعجمي» وقد ظهر ذلك من خلال 


النقاط التالية: 
)١(‏ تشغل اللغة التحريرية نسبة 6 من حجم الذخيرة واللغة 
الشفهية نسبة .WYo‏ 


(Y)‏ تمش المادة اللغرية الدجيرء اللغة الإنجليزية القياسيةء ولا تشمل 
اللغة الدارجة. ea,‏ اللغة الإنجليزية البريطانية بنسبة ۷١‏ 
واللغة الإنجليزية الأميركية بنسبة LE MYO‏ باقي المناطق الأخرى 
Sic‏ بنسبة .‰١‏ 

(Y)‏ تَمَثل المادة اللغوية استخدامات اللغة الإنجليزية المعاصرة فيما بعد 
عام ٠٦۹٠ء‏ ويراعى أن تكون المادة اللغوية حديثة قدر الإمكان. 

)٤(‏ لا تشمل الذخيرة المواد الشعرية والمسرحية والمواد العلمية. 

)0( الاقتصار على جمع أعمال الكتاب فوق ال úle ١١‏ على ألا 
تقل نسبة الكاتبات عن .9%Ye‏ 


(1 ) (Collins Birminghan University International Language Database) 
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)4( المادة التي يتم جمعها ليست عينات أو ol jal‏ من النصوص» بل 
نصوص كاملة أو مختارات من روايات كاملة؛ وذلك لمصلحة 

إجراء تحليل لغوي عن العلاقات البنائية بين أجزاء النص. 
وقد كان إصدار هذا المعجم بمثابة نصّب تذكاري في alle‏ المعجميةء 
وكانت أهم ميزة له اعتماده على الواقع اللغوي في اختيار LUIS‏ 
واستخداماتها وتقديم الشروح لها وغير ذلك من المحاور الأساسية في العمل 
المعجمي. وقد صرح العالم سنكلير رئيس تحرير المعجم أن هذا المعجم لم 
يعتمد على أسلوب تأليف الأمثلة التي يتبعه المعجميونء وأن جميع ADA‏ 
التي استخدمها iiia‏ من مادة لغوية حقيقية. وأن هذه الصفة (ucla‏ توجهًا 

جديدًا سيؤثر تأثيرًا كبيرًا في alle‏ التأليف المعجمي على المدى البعيد. 
وفي عام 1997 ألف العلماء التايوانيون خوانغ جو رن» وتشن كه 
جيان» ولاي تشين شيونغ (معجم الكلمات الكمية للغة الصينية!') التايوانية في 
مجال الصحافة)”ء ويُعتبر هذا المعجم أول مُعجم للغة الصينية يعتمد في 
تأليفه على ذخيرة لغوية. وينقسم هذا المعجم إلى جزأين رئيسيين: الجزء 
oe)‏ الكدية في i) ae eee‏ 
ما BY oe‏ الكمية بتغير المعدود te‏ "4 55 1ت" بمعنى 'ثلاثشة طلاب" 
Spies ed oy ee ay ks ; "四 本 书 "，‏ 
الوا E‏ 7 
الصينية؛ واللغة العربية بها مثل هذا النوح من الكلمات ولكن على نطاق ضيق مع 
بعض الكلمات التي تستحضر كلمة كمية ثابتة كأن نقول: 'ثلاثة رءوس من ASL‏ 


أو عندما Ja‏ الكلمة الكمية عن وعاء يحتوي الكلمة موضع العد كأن نقول: "خمسسة 
أكواب من العصير”. (المترجم) 
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المتعلق بالكلمات الكمية والجزء المتعلق بتراكيب الكلمات الكمية. يتناول 
الجزء المتعلق بالكلمات الكمية بالشرح استخدامات الكلمات الكمية» بالإضافة 
إلى أنواع الأسماء التي يمكن أن تأتلف معها في تركيب. وينطلق الجزء الذي 
.يتناول تراكيب الأسماء مع الكلمات الكمية من الأسماء في اللغة الصينية: 
I fae‏ عن جميع الكلمات الكمية التي يمكن أن تسنتخدم مع تلك الأسماء. وفيما 
يلي نعرض Vibe‏ من هذا المعجه(): 












法 


， 办 法 ， 作 法 ， 手 法 ， 用 法 ， 写 法 ， 疗 法 ， 玩 法 
, E 。 指 方法 或 方式 。 


[ 一般] 个 ， 项 ， 套 。 [ 种 类 ] 86, 式 。 


看 法 ， 说 法 ， 想 法 ， 讲法 ..…… o 指 意见 。 [ 一 般 ] 
个 ， 项 ， 点 。 


[ 种 类 ] 派 ， 样 ， 式 。 


【辨析 】 我们 可 以 说 
点 看 法 ， 这 一 点 说 法 ， 这 一 点 想法 ", 但 是 不 能 说 


宪法 ， 劳动 法 ， 刑法 ， 民 法 ， 交 易 法 ， 选 举 法 ， 国 安 
著作 权 法 ， 保 育 法 ， 国 际 法 ， 军 法 ， 税 法 .……. o 指 各 种 
法 和 通常 不 配 量词 。 


【辨析 】 "宪法 "还 可 以 说 "一 部 宪法"。 






法 律 条 文 的 内 





(Y)‏ سيتم عرض المثال باللغة الصينية cla LS‏ بالكتاب المصدرء يعقبه ترجمة لما ورد 
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"条 ， 项 ， 款 "编列 ， 如 "民法 第 一 百 八 十 条 第 一 项 第 二 款 ， 
eS A 项 第 五 款 "。 


语法 ， 文 法， 句法 ……。 指 语文 的 规律 。 
[一 般 ] 套 ， 条 ， 个 。 

[3] 能 力 。 

枪法 ， 剑 法 ， 箭 法 ， 刀 法 ， 指 法 


إن l‏ و ,9 


[种 类 ] 派 ， 式 。 
佛法 ， 魔 法 。 通 常 不 措 配 量词 。 
书法 。 [一 般 ] 幅 ， 张 ， 篇 。 


【辨析 】 人 还 有 "他 
的 这 一 手法 写 得 真 好 "这 样 的 说 法 。 


法 
بمعنى طريقة أو منهجية» مثل:‎ [1] 
方法 ， 办 法 ， 作 法 ， 手 法 ， 用 法 ， 写 法 ， 疗 法 ， 玩 法 ， 

.… 演 算法 
طريقة‎ Ag gay مهارة‎ cee بمعنى: طريقة» أسلوب» طريقة‎ 
استخدام» أسلوب كتابة» طريقة علاج» طريقة لعبء طريقة حساب»‎ 

وغير ذلك من الكلمات التي تعبر عن الطريقة أو الأسلوب. 


[في العموم] تَسْتَخْدّم الكلمات الكمية: 2# ,آل3 ， 个‏ وتستخد 
الكلمات الكمية: ل ,46 UR,‏ عند التعبير عن فئة أو نوع. 
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أو مثل: 
看 法 ， 说 法 ， 想 法 ， 讲 法 .….。 指 意见 。‏ 
بمعنى: وجهة نظرء طريقة حديث» طريقة تفكير» AGA‏ وغير 
ذلك من الكلمات التي Si‏ عن الرأي. 
[في العموم] SES‏ الكلمات الكمية: 个， 项， 点‏ وعند التعبير 
عن فئة أو نوع تَستّخْدم الكلمات الكمية: 25 RE,‏ 












[تعليق] يمكننا استخدام الكلمة الكمية " "#رمع الكلمات 
:Uw "想法 ， 说 法 ， 看 法 "‏ 
"这 一 点 想法 ， 这 一 点 说 法 ， 这 一 点 看 法 "‏ 
بمعنى "وجهة النظر coia‏ هذه الإفادة» هذه الطريقة في التفكير' 
يمكن أن نقول " 这 一 点 讲法‏ ". 
` [۲] بمعنى قانون» مثل: 
宪法 ， 劳 动 法 ， 刑 法 ， 民 法 ， 交 易 法 ， 选 举 法 ， 国 安 法‏ 
著作 权 法 ,保育 法 ， 国 际 法 ， 军 法 ， 税 法‏ ，….… 


بمعنى: القانون الدستوري» قانون العملء القانون الجنائي» القانون 
المدنيء القانون التجاريء قانون الانتخابات» قانون الأمن العام» قانون 
حقوق المؤلفء قانون رعاية الطفلء القانون الدولي» القانون العسكري؛ 
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قانون الضرائب... وغير ذلك من الكلمات التي تعبر عن أنواع 
القوانين. وهذه الكلمات غالبا ما تسستغني عن الكلمات الكمية. 

لاتعليق] كلمة "5#" i‏ الدستوري" لا يُستخدم 
معها كلمة كمية فلا يمكن أن نقول ,一 部 守法"‏ أما نصوص القانون 
فيمكن ترتيبها من الأكبر فالأصغر SaaS‏ معها الكلمات الكمية 
TH, RR‏ ,+4" بمعنى Gol!‏ بندء نقطة" فمثلا نقول: 


民法 第 一 百 八 十 条 第 一 项 第 二 款 ， 公 司法 第 四 百 一 十 九条 第 
"一 项 第 五 款 


بمعنى "النقطة الثانية من البند الأول من المادة المائة والثمانين من 
القانون المدنيء والمادة الخامسة من البند الخامس من المادة الأربعمائة 
وتسعة عشر من قانون “EAS pall‏ 
أو مثل: 
语法 ， 文法 ， 句法 veces‏ 

بمعنى قواعد اللغةء قواعد الأدب» القواعد النحويةء وغير ذلك من 
الكلمات التي تعَبّر عن قواعد اللغة والأدب.: 

[في العموم] تَسْتَحْدم الكلمات الكمية: ^ ,4 HE,‏ 

[Y]‏ بمعنى مهارة أو موهبة أو قدرةء مثل: 

枪法 ， 剑 法 ， 箭 法 ， 刀 法 ， 指 法 …… 
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بمعنى: الرمايةء المبارزة بالسيف» مهارة تصويب السهام» مهارة 
استخدام السلاح الأبيض» مهارة العزف على الآلات الوترية»... 

[في العموم] تَسْتَخْدّم الكلمات الكمية: AE, 4, 个‏ وعند التعبير 
عن فئة أو نوع نخدم الكلمات الكمية: R‏ ,ل. . 


بمعنى المذهب البوذي» أساليب السحرء وهذه الكلمات لا تستخدم 
Ul‏ كلمة "¥" بمعنى "فن الخط' pL‏ معها كلمات كمية. 
[في العموم] سَسْتَخْدَم الكلمات الكمية 26 HH, FE,‏ 
لاتعليق] "书法 "XK‏ بمعنى "فن الخط" يمكن أن pase‏ معها 
الكلمة الكمية "35" بالإضافة إلى الكلمات الكمية سالفة الذكرء فنقول: 
"他 的 一 手书 法 写 得 真 好 "‏ بمعنى "إنه يكتب هذا النوع من الخط 
بشكل رائع". 
وكانت الخطوات التي تم اتباعها لتأليف هذا المعجم التايواني 
المتخصص في تراكيب الأسماء مع الكلمات الكمية كما يلي: 
)١(‏ جمع الأمثلة التي تمثل التصاحبات اللغوية بين الأسماء والكلمات 
الكمية من الذخيرة. 
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(Y)‏ تصنيف البيانات التي تم الحصول عليها من الخطوة السابقة حسب 
معدلات التكرار. 
(*) اختصار البيانات السابقة وفقا لتصنيفات chle‏ اللغة ومؤلفي 
المعاجم. 
ولذلك فإن من أهم مميزات هذا المعجم ما يلي: 
)١(‏ عدم الاعتماد على استخراج المعلومات من المعاجم السابقة. 
(Y)‏ عدم الاعتمام فقط على الرؤية الذاتية للقائمين على تحرير المعجم 
في كتابة مواد المعجم. 
(Y)‏ استخراج الأمثلة اللغوية موضع الاستشهاد بعددها الكبير بشكل 
مباشر من ذخيرة لغويةء ثم تحليلها وتصنيفها من خلال وجهة نظر 
. علماء اللغة. 
وه لتم لد فخ فكلا ies Geis‏ ری ليه 
الظاهرة بل Sard‏ بصورة أكبر ES‏ شرحًا لأساليب استخدام كل Bale‏ من 
مواد المعجم» على سبيل المثال؛ oo‏ المعجم تحت كل Ur ye bala‏ يفيد بأكثر 
الكلمات والجمل شيوعًا وتمثيلا في الواقع اللغوي. وتكمن مناطق الاختلاف 
بين هذا المعجم والمعاجم السابقة في أن الكلمات والأمثلة AGATAN‏ ليست 
من تأليف محرري المعجم» بل تم اختيارها من ذخيرة لغوية كبيرة الحجم 
بشدوعة يمعدلات التكرارء ثم معالجتها من وجهة نظر هيئة تحرير المعجم 
وققا للقواعد التي أشرنا إليها. ولذلك فإن هذا المعجم لا يمكن أن يختلف عليه 
اثنان من حيث قوة التأثير وثراء المادة اللغوية. 
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Seah‏ القول: إن استخدام منهجية الذخائر اللغوية من شأنه أن يساهم 
في تطوير الدراسات في علم المعجمية على النحو التالي: 
)1( كم عدد المعاني المختلفة للكلمة الواحدة؟ 


و 


حيث تَعْتَبّر هذه القضية من محاور اهتمام علم المعجمية؛ لأن علم 
الذخائر اللغوية من شأنه أن يُقدّم استقراءً للمعاني المتشابهة أو المختلفة 
للكلمات في السياقات المختلفة من خلال مادة لغوية حقيقية واسعة (GLA‏ 
ومن BB‏ لا تكون هناك حاجة إلى الاعتماد على الأمثلة التي يؤلفها المعجميون 
حسب خبراتهم ووجهات نظرهم الخاصة. l‏ 

(Y)‏ معدل تكرار ظهور كلمة معينة 

هذا النوع من الدراسات الاستطلاعية داخل الذخائر اللغوية هو ما 
si‏ عليه إحصاء معدل تكرار الكلمات» وهذا الإحصاء من ثأنه أن ed‏ 
لنا درجة شيوع الكلمةء الأمر الذي يجعلنا نميز بين الكلمات شائعة الاستخدام 
والكلمات النادرة. وهذه المعلومات لها قيمة مرجعية مهمة في تحديد ما إذا 
كانت الكلمة سترد في المعجم أم لاء أو في تأليف مقررات تعليم اللغات أو 
في صناعة المعاجم الإلكترونية التي Lih‏ عليها في تطوير أنظمة المعالجة 
الآلية للغات الطبيعية وغير ذلك من المجالات. 

Tla ما الكلمات التي دائمًا ما تتصاحب مع كلمة‎ (Y) 

وهذا ما Sh‏ عليه دراسة التصاحبات اللغوية بين الكلمات. فالعالم 
اللغوي فيرث (Firth)‏ كانت له مقولة شهيرة هي: "معانى الكلمات لا َفَهّم إلا 
من خلال التصاحبات"”. والمقصود بذلك هو أن المعاني المختلفة لكلمة ما 
لا يمكن تمييزها إلا من خلال التصاحبات التي تظهر مع تلك الكلمة: 
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ads‏ نة النظر هذه لا يتم تمييز eal!‏ المختلفة لكلمة ما فقط 
(الإشكالية الأولى Lad‏ سبق)» بل يمكن iss‏ الاستخدامات المختلفة لتلك 
الكلمة» وكل ذلك لا يتم التوصل إليه إلا من خلال أنماط الاستخدام والعلاقات 
التصاحبية بين الكلمات المختلفة. وتكشف لنا النظرة العامة على الإنتاج 
المعجمي للغة الإنجليزية المنشور بعد تسعينيات القرن العشرين أن جميع تلك 
المعاجم بلا استثناء قد تم على أساس استقرائي لذخيرة لغوية واسعة النطاق. 
ولا يقتصر الأمر عند هذا الحدء بل إن أحدث مُعْجَمَيْن صدرا عن دار نشر 
لونجمان (manLong)‏ هما: (معجم لونجمان للغة الإنجليزية المعاصرة) 
(الطبعة (antl‏ و(معجم لونجمان لتداعيات المعنى باللغة الإنجليزية) 
of79](\447) (Longman Language Activator)‏ وهذان المعجمان 
يهتمان بصورة كبيرة بالدور الواضح الذي تلعبه التصاحبات اللغوية في 
شرح اللغة وتوليدها. وبالنسبة إلى المستخدمين الذين يتعلمون اللغة الإنجليزية 
باعتبارها لغة أجنبية فإن هذه الطريقة في تأليف المعاجم لها أهمية كبرى؛ 
ولذلك يلجأ محررو المعاجم إلى جمع كميات كبيرة من الأمثلة عن 
التصاحبات اللغويةء بالإضافة إلى خروجهم عن المألوف في صناعة المعاجم 
وجمعهم أمثلة عن التعبيرات اللغوية التي تمثل الاستخدامات الثابتة للكلمات» 

pi‏ ن عليها اسم الكلمات التعبيرية (phrase word)‏ وفي مجال الدراسات 
المتعلقة بعلم اللغة الحاسوبي والمعالجة الآلية للغات الطبيعية Es‏ عملية 
إزالة اللبس الدلالي بين الكلمات؛ التي يُطلق عليها Word)WSD {cial‏ 
anes Disambiguation‏ من الموضوعات KEA)‏ عليها أنها ذات 0 بة 
خاصة. بالإضافة إلى أن ١‏ استقراء التصاحبات اللغوية على نطاق واسع يُعتبر 
بمثابة مقدمة ابتكارية لحل هذه المشكلة. 


317 


(4) كيف يؤثر كل من المجال اللغوي والفترة التاريخية واللغة 
الدارجة وغير ذلك من العناصر غير اللغوية على نماذج استخدام 
الكلمات؟ 
هذا الاستقراء من شأنه أن يساهم في فروق استخدام الكلمات بين 
المجالات المختلفة» أو عملية تطور الكلمات مع تغير الزمن. 

وفيما يلي نقوم بتقديم النتيجة التي توصل إليها العالم (D. Biber) jay‏ 
في أثناء استقراء كلمة DEAL‏ (مكتوبة بالحروف الكبيرة للتعبير عن أنها 
إجمال لجميع الحالات الصرفية التي تنشأ عن تلك الكلمة)!50” 
أولاً: استقراء معدل تكرار DEAL Aas‏ 

للاطلاع على جدول معدلات التكرار لكلمة DEAL‏ في ذخيرة لوب؛ 
التي يبلغ حجمها عدد مليون كلمة انظر الجدول ATE‏ 

جدول (1-4): جدول معدلات تكرار كلمة DEAL‏ 


وغيرها من الكلمات في ذخيرة لوب | 
DEAL‏ 






| 290 | 182 | Dea | 
| 35749 | 52 | Dealing | 
| 2817 | 25 | Deals | 
| 9068 | 31 | Det | 
| 7778 | 290 | الإجمالى‎ | 

al 

بيذ 

ERE 














51618 | 16 | 
APPROACH | 185 | 
| 500 | 


LOOK 
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باعتبارها اسما سواء كانت في صيغة المفرد al‏ الجمع موزعة حسب 
المجالات في ذخيرة لوب. 1 
جدول )£-¥(: توزيع معدلات تكرار كلمة DEAL‏ 
على المجالات في ذخيرة لوب ش 


المجال 


التقارير الإخبارية | .. 





ونظرًا إلى كبر حجم المخرجات في كل تصنيف للمادة اللغويةء فإن 
الأرقام الأولية التي يتم حسابها على معدلات تكرار كلمة DEAL‏ لا يمكن 
الاعتماد عليها بشكل مباشر في مقارنة ارتفاع معدل تكرار هذه الكلمة أو 
انخفاضها في المجالات المختلفة. ولذلك يتم تنسيب هذه المخرجات الرقمية 
إلى وحدة المائة call‏ )10°( مع اعتبار حجم المادة في كل مجال لحساب 
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المخرج النهائي. وعلى فرض أن الرقم الأولي لعدد مرات التكرار يساوي 
cm‏ وحجم ذخيرة التصنيف يساوي M‏ والرقم النسبي المشير إلى قيمة 
التكرار يساوي on‏ فيمكن حساب تلك القيمة من المعادلة التالية: على سبيل 
المثال لو تم الحساب على مجال التقارير الإخبارية بذخيرة لوب LOB‏ 


تكون المعادلة كما يلي: 
n=—x10°‏ 
M‏ 


وبما أن نطاق ذخيرة التصنيف 886٠٠١ = M‏ كلمة» فإن الرقم النسبي 
لكلمة DEAL‏ هو: 


14 
88000 





x 100000 = 15.9 


n= 


ومن هذه الأرقام الإحصائية يمكننا أن نلاحظ أن عدد مرات ظهور كلمة 
DEAL‏ في التصنيفات الثمانية لذخيرة لوب بها ما هو أكبر وما هو أقل من © 
في حدود أربعة تصنيفات؛ حيث كان عدد مرات تكرار كلمة DEAL‏ في 
تصنيف المراسلات هو الأعلى حيث وصل إلى 75 مرة. وهذا يدل على أن 
عدد مرات تكرار كلمة DEAL‏ باعتبارها Cad‏ في ذخيرة لوب التي يصل 
حجمها إلى مليون كلمة ما زال صغيرً! إلى حد كبير. وعلى الرغم من ذلك 
فإن الأرقام النسبية لعدد مرات تكرار هذا الاسم في التصنيفات المختلفة يُظهر 
أن هناك اختلافا في نسب التوزيع» على سبيل المثال نجد أن الرقم النسبي لعدد 
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مرات تكرار هذه الكلمة داخل التخصصات الثلاثة (المراسلات» والتقارير 
الإخبازية» والديانات) تقش يضعف Leal)‏ في مجال الموضوعات الاجشماعية. 


والجدول oO ٠-٤‏ النتيجة الإحصائية لعدد مرات تكرار كلمة DEAL‏ 
في ذخيرة أكبر في مجالي الروايات والنصوص العلمية كل على as‏ وهذه 
الذخيرة عبارة عن عينات تم اختيارها من ذخيرة لونجمان- لانكاستر 
Longman Lancaster‏ في حدود أر بعة ملايين كلمةء وقد تم عمل الإحصاء 
على كل من حالتي الاسم والفعل لكلمة DEAL‏ 

جدول (4-"): يبين الجدول التوزيعي لعدد مرات تكرار كلمة DEAL‏ 
في مجالين مختلفين وفقا لنصوص ذخيرة لونجمان- لانكاستر Longman‏ 
Lancaster‏ 





” | jaaa | 
DEAL Ads: > 










روايات 











نصوص علمية nse‏ ا ان 
الإجمالي فاه a‏ امع 2 

















وهذا الجدول الإحصائي يوضح حقيقة في غاية الأهمية؛ وهي أنه على 
الرغم من أن إجمالي الأرقام النسبية تشير إلى أن صيغة الفعل من كلمة 
41 أكثر شيوعًا من صيغة الاسم ١١59(‏ في مقابل (Ae‏ نجد أن معدل 
استخدام الاسم أكثر شيوعًا من الفعل في تصنيف الرويات ٠١7(‏ في مقابل 
LI (TY‏ في مجال النصوص العلمية فنجد أن الوضع عكس ذلك؛ حيث كان 
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استخدام صيغة الفعل من كلمة DEAL‏ أكثر من ضعف صيغة الاسم ١75(‏ 
في مقايل (Y£‏ 

تشير نتيجة الاستقراء السابقة إلى أن الرقم الإحصائي الإجمالي 
للمشاهدات داخل الذخيرة بأكملها لا يمكن أن ينطبق دائمًا على المشاهدات 
Ap TN‏ من التصنيفات الفرعية للذخيرة. وعلى العكس من ذلك فإن 
النتيجة التي يتم الحصول عليها من تصنيف فرعي لا تعبر عن باقي 
النجالاك: بل لآ يمكن تعميمها fal‏ عن للقانون العام الذئ يحكم لغة مسن 
اللغات. وبعبارة أخرى» فإن معدلات تكرار كلمة من الكلمات وأنماط 
استخدامها $55 بدرجة كبيرة فقط عن المجال اللغوي الذي تمت عليه عملية 
الإحصاء. ومن هنا يرى بيبر أن النتيجة الإجمالية التي يتم عملها على لغة 
ما (اللغة الإنجليزية على سبيل المثال) لا يمكن أن تكون نتيجة استرشادية؛ 
لأن هذه النتيجة عبارة عن معالجة لمجموع المشاهدات التي تم جمعها عن 
معدلات الاستخدام في عدد من المجالات. فمن ناحية يرجع هذا إلى أن 
النتيجة الإجمالية لا تكون سليمة؛ بسبب تحول الأداء اللغوي الذي يحدث للغة 
من مجال إلى مجال. ومن ناحية أخرى يمكننا القول: إن اللغة التي SH)‏ 
عنها هذا النوع من النتائج الإجمالية غير موجودة على أرض الواقع. 


sl‏ الا ستقراء على مستوى الدلالة 


. في الغالب يتم عمل الاستقراء على مستوى الدلالة بدءًا من الجدول 
السياقي للكلمات Key Word in Context)‏ المسمى اختصارًا ب (KWIC‏ 


حيث يقدم هذا الجدول السياقي جميع الحالات التي ظهرت فيها كلمة معينةء 
مع السياقات المصاحبة لها. ولكن بالنسبة إلى الكلمات متعددة الدلالة ينبغي 
الاعتماد على المجهود البشري في للتعرف على معنى الكلمة موضع البحث 
alle)‏ عليها الكلمة الهدف) في كل سجل مُفَهْرَس أو كل مثال من ABM‏ 
وهذه من أصعب المهام التي يمكن أن يقوم بها العنصر البشري. على سبيل. 
المثال نجد أن كلمة DEAL‏ ظهرت ٠٠٠١‏ مرة داخل الذخيرة المكونة من 
مليون كلمة. Lol‏ بالنسبة إلى كلمة من الكلمات شائعة الاستخدام 、 تصل 
النتائج إلى ما يزيد عن عشرة آلاف سجل. وإذا أردنا أن نستخرج الأنماط 
الدلالية لتلك الكلمة من بين هذا الكم من النتائج؛ نحسب أن ذلك من الأعمال 
المستحيلة التي لا يستطيع أن يقوم بها عنصر بشري. لذلك فقد اختار العالم . 
بيبر طريقًا مختلفا للاستقراء الدلالي عن طريق التصاحب. إن ما Gl}‏ عليه 
الكلمات المتصاحبة يُقصتد به تلك الكلمات التي ترذ دائمًا بمصاحبة الكلمة 
الهدف داخل النصوص اللغوية. إن هذه الطريقة التي تعتمد على استقراء 
التوزيع الدلالي للكلمة تقوم على أساس الفرض التالي: كل مجموعة من 
الكلمات المتصاحبة يقتصر تصاحبها مع الكلمة الهدف في إطار معنى واحد 
لها فقط. ولذلك فمن خلال تحليل مجموعة الكلمات المتصاحبة التي يكثشر 
ظهورها مع الكلمةء يمكننا أن Shah‏ بشكل فعال معنى أو معاني تلك الكلمة. 
والجدول 5-4 يظهر لنا التصاحبات الأكثر ظهورًا مع كلمة DEAL‏ 
والذخيرة التي تم الاعتماد عليها Ap patie‏ من تصنيفين داخل ذخيرة 
لونجمان لانكاستر ‘Longman Lancaster‏ نصوص علمية في حدود 
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مليونين وسبعمائة ألف كلمةء وروايات في حدود ثلاثة ملايين كلمة. Sealy‏ 
بالتصاحب الأيسر تلك الكلمات التي ترد قبل الكلمة الهدف مباشرة؛ She‏ كلمة 
"6000" في التصاحب Li egood deal”‏ التصاحب الأيمن فيُقصد بهتلك 
الكلمات التي ترد بعد الكلمة الهدف مباشرة» مثل كلمة OF"‏ في التصاحب 
."deal of‏ 

وقد أظهر الجدول ٠-٤‏ أن أكثر الكلمات التي تتصاحب مع الاسم 
DEAL‏ من جهة اليسار هي كلمة great’‏ (ظهرت بمعدل £0 مرة في كل 
مليون كلمة)» يلي ذلك كلمة “good”‏ (ظهرت بمعدل YY‏ مرة). وفي الحقيقة 
أن هذا يمثل مجموع أمثلة يصل إلى Gala ٥‏ من بين ۱۹١‏ حالة ظهور 
. لهذه الكلمة في هذا التصنيف. وتلى ذلك من حالات التصاحب الأيسر كلمة 
"package"‏ وكلمة ethat‏ حيث وردت US‏ منهما مرتين فقط أي بمعدل 
۷ كل مليون كلمة. 
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جدول ؛-؛ الكلمات دائمة التصاحب مع كلمة DEAL‏ 
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وتشير تلك النتيجة الاستقرائية إلى أن كلمة DEAL‏ في حالتها الاسمية 
يكثر ورودها مع التصاحبات "good/great deal!‏ في النصوص spalel)‏ وفي 
تلك الحالة يكون معنى "Idea"‏ هو 'كمية,. أو 'صفقة". وإذا نظرنا إلى 
التصاحبات اليمنى سنجد أن كلمة 0" هي أكثر الكلمات المشصاحبة مع 
الكلمة الهدف من Aga‏ اليمين؛ حيث وردت بمعدل ۳۹ مرة في كل مليون 
كلمة» وهي نسبة تفوق كثيرًا نسبة الكلمة التي وردت في الترتيب التالي لها 
(وردت كلمة more‏ مع الكلمة الهدف بمعدل سبع مرات). ومن هنا يمكننا أن 


35 


نستخلص أن كلمة Late DEAL‏ تستخدم اسمًا فإن نمط التصاحبات المقترن 
معها يكون على الصيغة ea good/great deal of‏ ويتضح من ذلك أيضًا أن 
المعنى الأكثر تداولاً لكلمة DEAL‏ هو كمية"» أو dale’‏ تجاري". وبالإضافة 
إلى ذلك فإن الجمع بين نتيجة الاستقراء السابقة وجدول الفهرسة من شأنه أن 
Giai‏ لنا مستوى أكثر واقعية للحكم على المعاني الأكثر شيوعا لكلمة 
DEAL‏ في حالتها الاسمية. على سبيل المثال» يعبر جدول الفهرسة عن أن 
أكثر الاستخدامات شيو "good/great deal” hail É‏ هر a good great deal"‏ 
«of work‏ و "a good/great deal attention"‏ ليس هذا فقطهء بل إن 
مجموعة الكلمات المتصاحبة مع كلمة DEAL‏ من جهة اليمين تعبّر عن أن 
معناها في تلك الحالة يكون 'كمية". على سبيل المثالء الأمثلة التي وردت 
فيها كلمة التصاحب “more”‏ من جهة اليمين هي a great deal more"‏ 
Ll .oa great deal more inhibited" ; "tolerance‏ كلمتا "to" c'in"‏ عندما 
تتصاحبان مع كلمة DEAL‏ من جهة اليمين فيعني ذلك أنها ما زالت تعني " 
كمية". مثل: great deal in common’‏ وك ` differ agreat deal in their‏ 
great deal to be desired’ ; “understanding‏ و" و" a great deal to‏ 
offer‏ وما إلى ذلك. والخلاصة أن غالبية معاني DEAL 4S‏ في حالتها 
الاسمية في النصوص العلمية تأتي بمعنى 'كمية". 

أما إذا قارنا بين النصوص العلمية ونصوص الروايات فسوف نجد أن 
هناك تشابهًا في حالات التصاحب DEAL LKI‏ في صيغتها الاسمية» مع 
وجود بعض الاختلافات الواضحة. فمن ناحية نجد أن الكلمتين SY!‏ 
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تصاحبًا معها من Aga‏ اليمين ما زالت هي “great’‏ و"9000. ففي الحقيقة 
أن معدل تكرار نمط التصاحب /great+deal”‏ 9000 في التصنيفين مثماثلا 
تمامًا؛ حيث TA Jas‏ مرة لكل مليون كلمة. ومن ناحية أخرى علينا أن ننتبه 
إلى أن هناك 15 حالة من حالات التصاحب داخل تصنيف الروايات لم 
تستخدم النمط "good/great+deal"‏ بل ظهرت تصاحبات أخرى جهة 
اليسار مثل “the”‏ التي ظهرت ثماني مرات كل مليون Aal‏ وكلمة "big"‏ 
التي ظهرت ثلاث مرات كل مليون كلمةء هذا بالإضافة إلى وجود سبع 
كلمات أخرى ظهرت مرة أو مرتين مع كلمة DEAL‏ من اليسار. 

وهذا يشير إلى أن معنى كمية" لكلمة DEAL‏ في حالتها الاسمية هو 
المعنى الأكثر شيوعا في التصنيفين» على الرغم من ظهور العديد من 
التصاحبات الجديدة الأكثر شيوعًا؛ التي تَعَبّر عن معاني (أو استخدامات) 
الكلمة لم تظهر أمثلة لها في النصوص العلمية. على سبيل المثال كلمة the’‏ 
عندما تتصاحب مع كلمة DEAL‏ يكون معناها "اتفاقية"› مثل: " part of the‏ 
«deal is ...‏ و Li “Isn’t that the deal?”‏ كلمة "big‏ فعندما تتصاحب مع 
DEAL‏ يكون معناها "غير مهم" مثل: ‘no big deal”‏ و" what’s the big‏ 
."deal?‏ ش 

هذا بالإضافة إلى أن هناك العديد من التصاحبات التي لم يمكن 
حصرها في الجدول السابق؛ بسبب انخفاض معدل تكرارها تعرضت لمعنى 
مهم من معاني كلمة DEAL‏ وهو معنى 'صفقة"« مثل: «property deal‏ 
“deal record” s‏ و cash deal"‏ و "Land deal’‏ وما إلى ذلك. 
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وتتشابه المشاهدات التي تم الحصول عليها لمصاحبات كلمة DEAL‏ 
من جهة اليمين بين النصوص العلمية ونصوص الروايات. إلا أن كلمات مثل 
with’ g about‏ لم ترد في النصوص العلمية. 

وعندما تقترن كلمة "about‏ و0" مع كلمة DEAL‏ نجد أنها ما 
زالت تحمل معنى 'كمية"؛ مثل: 

"I also knew a great deal about love". ۰ 
"We both laughed a great deal about this". 

وبالإضافة إلى ذلك: نجد أن كلمة with‏ عندما تقترن من جهة اليمين 

مع DEAL‏ يكون معناها "صفقة"؛ مثل: 
"I made a deal with the doctors"‏ 
"Pll cut a deal with you"‏ 


وفي نصوص الروايات» لوحظ أن هناك حالات من المعنى لم تظهر 
ولو مرة واحدة في النصوص العلمية؛ بمعنى أن هناك بعض التصاحبات 
اليمنى مثل كلمة table"‏ التي ظهرت أربع مراتء وكلمة "box"‏ التي ظهرت 
مرة واحدة؛ حيث كان معناها 'مادة خشبية”: وعلى الرغم من أن هاتين 
الكلمتين لم تظهرا بعدد مرات كبيرء فإنهما تعبران عن استخدام آخر لكلمة 
DEAL‏ في النصوص الروائية. 

وقد أجرى العالم بيبر مقارنة على النتائج الاستقرائية التي توصل إليها 
مع عدد من المعاجم الشائعة فوجد أن بعض هذه المعاجم قد أفردت مدخلا 
(entry) thal,‏ لكلمة DEAL‏ والبعض الآخر قد Sif‏ لها أربعة مداخل على 
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أكثر تقدير. إن أكثر المعاجم أفردت ؛ مداخل لتلك الكلمة. وقد اختلفت 
المعاجم Lad‏ بينها في عرض المعاني الشارحة لكلمة Cus (DEAL‏ تراوحت 
تلك المعاني ما بين معنيين أو ثلاثة» وبعضها وصل إلى ثلاثين معنى» وقد 
ترتب على ذلك صعوبة تمييز القارئ للمعاني المختلفة لكلمة DEAL‏ وفيما 
يلي نعرض تجميعًا لعدد سبعة معاني تكررت داخل خمسة معاجم إنجليزية 
عن كلمة Laie DEAL‏ تأتي على الحالة الاسمية: 

)1( كمية كبيرة» قذر كبيرء كثير. 

(Y)‏ اتفاقية. 

(Y)‏ (في أوراق اللعب) ess‏ أوراق اللعب على اللاعبين. 

)£( (يتلقى) معاملة. 

)°( توزيع. 

(Y)‏ تجارة» معاملة. 

وقد city J‏ أغلب المعاجم شرحا لتلك المعاني dened‏ إلا أن هناك 
يرد به معنى "اتفاقية". هذا بالإضافة إلى وجود فرق كبير بين تلك المعاجم في , 
ترتيب شرح المعنى. على سبيل المثال ظهر معنى AUS‏ كبيرة» وقدر كبيرء 
وكثير" في المادة الفرعية الثانية في معجم وبستر LÍ (Webster)‏ في معجم 
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راندوم هاوس (Random House)‏ فوردت في المادة الفرعية الحادية والعشرين. 
وقد كانت الملاحظات التي توصل إليها بيبر من خلال المقارنة ما يلي: 

)١(‏ على الرغم من أن معنى كثير" هو المعنى الأكثر شيوعا داخل 
التصنيفين الذين تكونت منهما الذخيرة موضع البحث»ء فإن هذا 
المعنى لم يتصدر قائمة المعاني في بعض المعاجم المنشورة» بل 
أتى في آخر الشرح؛ حيث احتل الموضع السادس عشر أو الحادي 
والعشرين. 

(Y)‏ تم التوصل إلى المعنى الأكثر شيوعًا لكلمة DEAL‏ من خلال 
تحليل التصاحبات اللغوية لهذه الكلمة؛ وذلك عندما نستخدم 
التصاحب "big deal”‏ بمعنى "غير cage‏ وهذا المعنى لا يوجد 
معجم حتى الآن تمكن من رصده والتعرض له في الشرح. 

(Y)‏ جميع المعاجم الخمسة التي تم استطلاعها أوردت معنى 'توزيع 
أوراق اللعب" باعتباره asi‏ معاني كلمة DEAL‏ إلا أن هذا المعنى 
لم يظهر في الذخيرة التي أجرى العلم بيبر بحثه عليها. فمن ناحية 
تشير نتيجة استقراء الذخيرة إلى أن هذا المعنى من المعاني النادرة 
لكلمة DEAL‏ ومن ناحية أخرى فإن المتحدثين الأصليين باللغة 
الإنجليزية (native speakers)‏ يعتبرون أن هذا المعنى من المعاني 
الخاصة لكلمة DEAL‏ ولذلك فإن تدوينهم لهذا المعنى في معاجمهم 
يعتبر عملا صحيحا. ومن هذا المنطلق يمكننا القول: إن ذلك هو 
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أحد أوجه القصور في منهجية العمل من خلال الذخائر اللغوية. 
ويرجع ذلك إلى أن أسلوب العينات الذي يتبعه علم الذخائر اللغوية 
في جمع النصوص يتعرض لقدر من التحيز وتحجيم نطاق المادة 
اللغوية» وهذا الوجه من أوجه القصور من الصعب تجنبه. لذلك لا 
بد من تدخل علماء اللغة في أثناء عمليات استقراء المفردات؛ حيث 
تسد معلوماتهم وحسهم اللغوي أوجه القصور في منهجية العمل من 
خلال ذخائر لغوية. 
ÉG‏ منهجية الذخائر اللغوية في دراسة التصاحب اللغوي 
يظهر التصاحب اللغوي باعتباره أهم 'الظواهر الواجب دراستها لخدمة 
مجالات تعليم اللغات للناطقين بغيرهاء والترجمة الآليةء والتوليد الآلي للغات 
الطبيعية وغير ذلك من المجالات. فلماذا نقول: 'يرتدي ملابس“ و'يضع 
Mad‏ في حين أنه لا يمكننا أن نقول: 'يضع ملابس"» و"يرتدي قبعة" ولماذا 
في اللغة الصينية يمكننا استخدام الفعل E‏ بمعنى يرى أو يشاهد في الأمثلة 
التالية " 看 电影‏ ' بمعنى يشاهد "看 球赛‏ بمعنى يشاهد مباراة كرة 
"看 小 说 9 «pul‏ بمعنى يقرأ روايةء 9" "看 朋友‏ بمعنى يزور صديقاء في 
حين أن هذا الفعل عندما ينقل إلى اللغة الإنجليزية سيترجم إلى go/see’‏ 
0 على التوالي» وكل هذه من المعلومات الواجب 
استيعابها جيدًا حتى يتمكن الدارس من استخدام لغة من اللغات. 
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aaral 2‏ مورتون بنسون ly (Benson .M)‏ معجم بي بي آي 
للتصاحب اللغوي في اللغة الإنجليزية )) BBI Cominatory Dictionary of‏ 
[81].(Johne Ben jamins Publishing Co,1986) ((English‏ تعريفا 
للتصاحب اللغوي US‏ يلي[82]: 

التضاحب: اللغوي. هو نوع امن تكزار الظهور الإلزامي لمجموغة من 
الكلمات معا( A collocation in an arbitrary and recurrent word‏ 
(combination‏ ". 

وقد حدد بنسون من خلال تعريفه خاصيتين من خواص التصاحب 
اللغوي وهما أن ظهور التصاحب يكون إلزاميٌاء بالإضافة إلى تكرار 
الظهور. 

والمقصود بلزوم التصاحب هو التفريق بين التصاحب اللسصقي 
(bound combination)‏ أو التصاحب .(free combination) jal‏ يعبر 
التصاحب اللصقي عن لزوم عملية التصاحب بين الكلمات المتصاحبة. 
وبعبارة أخرىء يتمتع هذا التصاحب بصفات خاصة ومحددة» وهي أن كل 
تصاحب يضم على أقل تقدير كلمة واحدة تخضع لقدر كبير من الإلزام في 
أثناء التصاحب مع الكلمات الأخرىء وعلى هذا الأساس لا تكون حرة في 
عملية التصاحب؛ مثل التصاحب murder commit‏ بمعنى (ارتكب جريمة 
قتل)؛ حيث إن فعل 'قتل" أو “commit”‏ لا يمكن أن يقترن إلامع عدد محدود 
من الأسماء مكونا تعبيرة فعل ومفعول» مغل الكلمات “crime”‏ بمعنى ' 
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oA ja‏ و “suicide”‏ بمعنى "lati!"‏ و "doing-wrong‏ بمعنى 'فعل مشین“ 
وما إلى ذلك. ولذلك يتم اعتبار تعبيرة commit murder‏ تعبيرة لصقية. 
والتعبيرات اللصقية (التصاحبات) تفرضها العادة اللغوية في لا ولا 
تكفي المعلومات النحوية والدلالية لإماطة اللثام عن السبب في حتمية الحديث 
بمثل هذه الطريقة؛ ولذلك تكون هذه التصاحبات إلزاميةء aes ey‏ 
أن يتوقع lene‏ وعلى العكس من ذلك؛ فإن كل كلمة من الكلمات المكوانة 
للتعبيرات الحرة يمكنها أن ترتبط بحرية مع كلمات أخرى خارج نطاق تلك 
التعبيرة» مكونة بذلك تراكيبًا أخرى على نمط التركيب النحوي الحالي نفسه. 
على سبيل المثال تعبيرة فعل ومفعول على النمط نفسه مثل" condemn‏ 
"Murder‏ بمعنى "يدين جريمة قتل" تنتمي إلى التعبيرات الحرة وذلك OY‏ 
فعل condemn‏ يمكن أن يقترن مع العديد من الأسماء مثل 
“abduction,abortion,abuse of power, acquittal’‏ وما إلى ذلك باعتبارھا ` 
مفعولاء أما الاسم murder‏ فمن الممكن أن يقترن مع أكثر من مائة فعل 
مختلف باعتباره مفعو ‘abhor,accept,acclaim, advocate" :io y‏ وما إلى 
ذلك. لذلك فإن هذه التعبيرات لا تتمتع بخصوصية لغويةء وما على دارسي 
اللغة الإنجليزية باعتبارها لغة أجنبية ثانية إلا أن يتعرفوا على معنى تلك 
GLISH‏ وخضصاتضها النحوية وها ترق gle‏ ذلك من فراع تحوية: حي 
يمكنهم أن يكونوا تلك التعبيرات اللغوية بحرية تمكنهم من التواصل اللغوي 
السليم. وانطلاقًا من هذا المعنىء فإن التعبيرات الحرة ليست إلزامية ويمكن 
توقع حدوثها. 
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وفي مجال دراسات التصاحب في اللغة الصينية فقد نشر في السصين 
ase‏ من معاجم التصاحب اللغوي. إن دراسة التصاحب اللغوي في اللغسة 
الصينية لا يمكنه أن يتجنب أيضنًا قضية التمييز بين حدود التصاحب وغير 
التصاحب اللغوي. يرى قوه تشيان أن معجم (التصاحبات اللغوية بين الكلمات 
الحقيقية في اللغة الصينية الحديثة)* هو أفضل المعاجم التي تناولت قضية 
التصاحب اللغوي في اللغة الصينية الحديثة. وذلك على الرغم من أن هذا 
المعجم قد سجّل عدذا كبيرًا من التعبيرات اللغوية الحرة على اعتبار أنها 
تصاحبات لغوية. وقد عرض رئيس تحرير المعجم في مقدمته فكره في أثناء 
عملية التأليف والمتمثل في أن يقدم لكل كلمة حقيقية يرغب أي شخص في 
التعرف عليها ما يلي: 

)1( هل يمكن أن تشغل محل المسند إليه في الجملة؟ وإذا كان مسن 
الممكن ذلكء فما الكلمات التي يمكن أن تشغل محل المسند معها؟ 

)1( هل يمكن أن تشغل محل المسند في الجمل؟ إذا كان من الممكن 
ذلك» فما الكلمات التي يمكن أن تشغل محل المسند إليهء أو المفعولء أو 
٠‏ المكمل معها؟ وما إلى ذلك. وقد شبّه فريق تأليف المعجم الكلمة أنها مثل 
المغناطيس» وأن الكلمات التي تنجذب لتأثير المجال المغناطيسي لتلك الكلمة 
يمكنها أن OE‏ معها تصاحبًا لغويًا. وعلى هذا يمكننا أن نتصور كيف أن 
هذا المعجم سوف يجمع بالتأكيد عدذا لا بأس به من التعبيرات الحرة Y)‏ 
تمثل تصاحبات لغوية) مثل تصاحبات المسند إليه + المسند مثل " "经 理 能 干‏ 
بمعنى"المدير TABEF” g 9SY‏ بمعنى "العامل الكفؤ"» وتصاحبات المسند . 
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+ المفعول به مثل: "74821041" بمعنى "يمدح الشاب“ و ' "称赞 学 生‏ بمعنى 
'يمدح الطالب" وما إلى ذلك. 

ومن هذا المنطلقء» فإن التوصل إلى طريقة إحصائية مناسبة للحكم 
على ما إذا كان التركيب يمثل تصاحبًا لغويًا أم غير ذلك يُعْتبّر من القضايا 
المهمة التي تشغل العاملين في حقل الذخائر اللغوية. كان العالم ياكوف شويكا 
(Y .Choueka)‏ أول من استخدم الأدوات الحاسوبية في عمل تحليل كمي 
للتصاحبات اللغوية في OG sal)‏ حيث عرف هو وفزيقه البحثي التصاحب 
اللغوي على أنه سلسلة من الكلمات المتجاورة التي تتكرر معاء وقد نجح في 
استخراج عدة آلاف من التصاحبات اللغوية الشائعة في اللغة الإنجليزية LGM‏ 
من ذخيرة تصل إلى إحدى عشر مليونا من الكلمات من جريدة نيويورك 
تايمز باستخدام الحاسب الآلي؛ مثل: fried chicken Johnson, home run,‏ 
Magic‏ وغيرها. وقد كان من عيوب تلك الدراسة عدم التفكير في إمكانية 
أن تقوم إحدى الكلمات بالفصل بين الكلمتين المتصاحبتين؛ مثل: decision)‏ 
(make‏ بالإضافة إلى الخاصية الإلزامية للتصاحب اللغوي. أما العالم كينيت 
والت تشرتش (Church .K)‏ وغيره من العلماء فقد عَرفوا التصاحب اللغوي 
على أنه syle‏ عن كلمتين بينهما علاقة متبادلة»؛ واستخدموا مفهوم 'كمية 
المعلومات المتبادلة" (mutual information)‏ الخاص بنظرية المعلومات في 
الحكم على القوة الاقترانية بين أي كلمتين في اللغةاة*!؛ dya‏ أجروا اختبارًا 
على ذخيرة من النصوص الإخبارية مكونة من أربعة وأربعين مليون كلمة 
أطلق عليها ذخيرة (Usap Corp)‏ إن القيمة الإحصائية التي تقدمها معادلة 
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المعلومة المتبادلة يمكنها أن تقدم إلى حد بعيد تفسيرًا للخاصيتين اللتين قم 
طرحهما آنفا؛ وهما خاصية الإلزام وخاصية التكرارء هذا بالإضافة إلى أنها 
لا تتقيد بضرورة أن تكون الكلمتان متجاورتين. ومن عيوب تلك الطريقة 
عدم الاهتمام gh‏ يتضمن التصاحب دائمًا خصائص تركيبية نحويةء الأمر 
الذي تسبب في أن يستخرجوا العديد من أزواج الكلمات من الذخيرة؛ مثل: 
doctor-nurse, doctor-bill, doctor-hospital‏ على الرغم من وجود علاقة 
دلالية بين تلك الكلمات؛ ولكن نظرًا إلى عدم وجود علاقة نحوية تحكم تلك 
الكلمات» فلا يمكن النظر إليها باعتبارها تصاحبات لغوية إذا نظرنا إليها 
بقدر أكبر من الدقة في الحكم. أما برمجية إكستراكت Xtract‏ التي صممها 
العالم فرانك سمادجا (۴. s (Smadja‏ من أحدث البرمجيات التي تقوم 
بعمل تحليل كمي للتصاحبات اللغوية بالإضافة إلى أنها-الأكثر PISS‏ ولم 
يكتف سمادجا بتقديم معادلة تفسر قوة الاقتران بين أزواج الكلمات فحسبء 
بل استعان بمعادلة لحساب موقع الكلمة ودرجة التشتت في توزيعها. وقد 
نجحت برمجية إكستراكت Xtract‏ في استخراج أمثلة عن التصاحب اللغوي 
من ذخيرة تصل إلى عشرة ملايين كلمة عن أخبار بورصة الأوراق المالية؛ 
وقد وصلت نسبة الدقة في النتائج إلى ما يقرب من WA‏ 

استخدم العالم سوين ماو سونغ وغيره من جامعة شين خوا الصينية 
ذخيرة الأخبار التي أنشأتها وكالة أنباء الصين الجديدة شين خوا في الفترة ما 
بين عامي ۰٩۱۹۹۱-۱۹؛‏ التي lll‏ عليها اسم ‘XH-CORPUS‏ في عمل 
تجربة عن التحليل الكمي للتصاحبات اللغوية في اللغة الصينية» وكان الهدف 
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ذلك تقديم مرجعية كمّيّة عن التصاحبات اللغوية لعلماء اللغة حتى يمكن 
تقديم كشاف نصف آلي عن التصاحب اللغوي يصلح لأنماط التواصل اللغوي 
بين الإنسان PAN,‏ وفي الصفحات التالية سوف نقدم نتيجة الاستقراء 


قوة التصاحب 
قام كينيت والت تشرتش وغيره من العلماء باستخدام معادلة كمية 
المعلومات المتبادلة mi‏ لقياس درجة العلاقة بين أي كلمتين Wi gM‏ 
(w, w;)‏ : 
La‏ ا mi(w, w,) = lo‏ 
E p(w)p(w;)‏ 
المعادلة )١-٤(‏ 


和‏ احتمال EL‏ " في نطاق 
السیاقء POLE‏ و POY)‏ فتشير کل منهما إلى احتمال ورود POY‏ 
و PW)‏ بمفردهما على التوالي داخل الذخيرة. 

على فرض أن PO)‏ و POM‏ زوج من الكلمات المتصاحبة ASN‏ 
تعكس القاعدة )١-4(‏ السابقة مدى إلزامية التصاحب» وخاصية تكرار 
en‏ | 

Zap و كانت‎ «yen Y aah POM), POW) as ا‎ 

تقيّد الكلمتين ”› و " ببعضهما كبيرة» وكانت فرصة ظهور 
هاتين الكلمتين مع كلمات أخرى قليلةء بالإضافة إلى أن قيمة 
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POM) J, POW)‏ قليلةء فمن 3 تكون كمية المعلومات المتبادلة 
بينهما OM)‏ كبيرة. وهذا يعبّر عن أن كلا من W gW‏ 
بينهما علاقة اقتران إلزامية قوية. والعكس من ذلك صحيح. 

W عندما تزيد عدد مشاهدات ۰۷ مع “لأء ويكون احتمال ورود‎ (Y) 
ل ذلك‎ Lag كبيراء تزداد‎ POM له بالرمز‎ Sat مع ' والذي‎ 
و:"؛ التي يُرمز لهاب‎ ٠١ كمية المعلومات المتبادلة بين‎ 
aW عن زيادة قوة التصاحب بين كل من‎ JSS وهذا‎ HO) 
و ". والعكس من ذلك صحيح.‎ 

ويراعى في أثناء اكتشاف أمثلة التصاحب ضرورة أن يأتي التصاحب 


بين الكلمتين ١‏ و " في إطار جملة واحدة. ففي إطار الجملة الواحدة يمكن 
السماح بأن تنفصل الكلمتان i gM‏ عن طريق مجموعة من الكلمات. على 
سبيل المثال» تعبيرات مثل FKR"‏ بمعنى '"يرتدي ملابس“ و "8 5۴51" 
بمعنى 'يرتدي ملابس جديدة"» و "FT PETAR‏ بمعنى 'يرتدي ملابس 
حمراء اللون”؛ وما إلى ذلك من تعبيرات لغوية أو جمل» نجد أن كلمة 穿‏ 
بمعنى 'يرتدي" تتصاحب مع كلمة "FEAR"‏ بمعنى "ملابس" وهما كلمتان ينبغي 
ظهورهما معًا. وبالطبع فإنه كلما بعدت المسافة بين الكلمتين أمكننا القول 
بانحسار قوة العلاقة التصاحبية Lad‏ بينهما. وقد حددت برمجية إكستراكت 
ا السياق المحيط بالكلمة الإنجليزية عند حدود خمس كلمات قبل تلك 
الكلمة وبعدها. وبعبارة أخرى» يمكن القول: إن نافذة الرؤية للكلمة تم 
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تحديدها بقيمة OF‏ كلمات. وقد اتبع سوين ماو سونغ طول النافذة نفسه في 
استقراء التصاحب اللغوي في اللغة الصينية؛ حيث جعل الصيغة pi(w,w,)‏ 
ja‏ عن احتمال ظهور الكلمتين tee Wi gew‏ عندما يفصلهما عدد من 
الكلمات يقدر بالمسافة 4. على أن تكون 1,1,2,3,4,5-,2-,3-,4-,ك- = ور , 
فعندما تظهر الكلمة Wi‏ على يسار الكلمة ow‏ فإن ‏ تأخذ قيمة سالبةء Lid‏ 
عندما تظهر الكلمة “على يمين WAS‏ فإن ange igh hs J‏ 

فإذا عبرنا عن قوة التصاحب SOM) deals‏ فيُمكننا حساب ذلك من 
خلال المعادلة التالية التي تقوم على أساس من القاعدة )١-4(‏ كما يلي: 


+5 
رم‎ Pi(w,w) 


Ww.) =log Jas o O 
s(w,w;) = log, POD DOD. 





المعادلة (4-؟) 
فلو فرضنا أن مجموع الكلمات المُكوّتة للذخيرة هو NM‏ وكانت 
الصيغة 720 foi‏ عن ظهور الكلمتين ow‏ و" وتفصلهما المسافة of‏ 
وكانت كل من Gp es “3 TW) OW)‏ عن عدد مشاهدات »و Wi‏ 
بمفردهما داخل الذخيرة واستخدمنا التقديرات الأعلى فيمكننا الحساب 
بصورة منفردة كما يلي: 
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pj(ww;)= r;(w,w;)/N 
p(w) =r(w)/N 
p(w) =r(w)/N 


ويمكننا إدراج ماسيق مع القاعدة (Y—£)‏ فنحصل على الصيغة التالية: 






+5 
N r;(w, w; ) 


5ل 


s(w, Ww) = log, 
انا‎ DE r(w)r(w,) 





المعادلة (4-) 

يصل حجم ذخيرة XH-CORPUS‏ إلى عشرة ملايين رمز» وبعد أن 
تمت عليها عملية تقسيم للكلمات وصل عدد كلماتها إلى N=7.1X10°‏ وقد 
أجرى سوين ماو سونغ دراسة استقرائية على التصاحبين اللغويين 
"38 ,8827" بمعنى 'قدرة» ضعيفة"» و" ,[882" بمعنى GaP‏ كبيرة.. 
وفيما يلي بيانات تلك الدراسة الإحصائية: 

المجموعة الأولى: BB"‏ ,8827" 

3 = Cen, 3) =1,." CÊ, 5) =3 


2 CHEM, $) =5, 7 (能 力 ， 弱 ) =0 (/=-5,-4,-2,- 
1,3,4,5) a 
r=( 能 力 )=2441,7 = (§§)=177 


Gigy‏ للمعادلة رقم (4-”) يتم التعويض في المعادلة كما يلي: 
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7.1x10°(1+3+5+7x0) 


ne: 2241x177 ae wy, B = 
"BED, KAAN المجموعة‎ 
Ms 《能 力 ， 大 ) =6, rs 〈 能 力 ， 大 ) =4, 


hs (gb, K) =8, = (能 力 ， 大 ) =4， "i (HBA, K) =2, 
"CH, 大) =9, h Che, K) =6, P CREW, K) =4, 
(能 力 ， 大) =6, 5 (HEA, 大) =5, r (REJJ) =2241, 
r CK) =19913 


(能 力 ， 大 ) =5 
8 2 
log, 7.1x10°(6+44+84+4+24+9+6+4+6+5) = 3.10 


3 2 
قبل شن ee‏ ات ف اتون ا 
أن ) SIS (能 力 ， 弱‏ بكثير من es (能 力 ， K)‏ يتح لذا 
أن المجموعة ee HB)‏ تصاحب لغوي بصورة أكبر من 
(HEH, K)‏ وعلى الرغم من | ن الكلمتين HB BED‏ وردتا معافي 
الذخيرة عدد ٩‏ مراتء وأن الكلمتين "8520" و" وردتا معا عدد Of‏ مرق 
فإنه نظر إلى أن كلمة "8827" وردت بمفردها داخل الذخيرة عدد LA ١١١‏ 
كلمة AT‏ فقد وردت بمفردها في الذخيرة عدد ١١۹۹ء‏ ووفقا للمعادلة رقم 
(4-) فإن قيمة درجة التصاحب بين كل من "38 ， "能 力‏ قد تجاوزت على 
العكس من ذلك نظيرتها بين كل من©2 "AEJ,‏ وهذه النتيجة نقطة ius‏ 
لصالح مبدأ إلزامية التصاحب بين الكلمات. 
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وبالطريقة نفسها يمكن التوصل إلى النتائج التالية: 
s (HBA, 38) =7. 45‏ 
s (HEA, Æ) =6. 63‏ 
s (HEA, 7) =0.74 |‏ 
وحسب درجة قوة التصاحب يمكن ترتيب التصاحبات تنازليًا كما يلي: 
S (能 力 ， 强 ) > S (能 力 ， 5) > S 《能力 ， 大 ) >‏ 
s (BBA, Ay)‏ 
وهذا يوضح أن إمكانية وجود تصاحب فيما بين هذه المجموعات 
تتناقص تدريجيًا. ونظرا إلى تقارب درجة قوة التصاحب وارتفاعها lad‏ بين 
المجموعات CHB, Bo HEA, BRT‏ و" ,8827" يمكن اعتبارها 
تصاحبات لغوية. وعلى الرغم من أن نتيجة التصاحب ل CREA, 大)‏ 5 
منخفضة:؛ فيمكننا عمل | ستقراء إضافي لهذه المجموعة لتقرير ما إذا كانت 
fies‏ تصاحبًا لغويًا أم لاء أما نتيجة التصاحب ) 小‏ ,8827) 3 فتقترب من 
الصفر؛ ولذلك فمن الواضح أنها لا تمثل تصاحبًا لغويًا. 
درجة انتشار التصاحب 
ونظرا إلى أن الكلمتين المتصاحبتين غالبًا ما يكون بينهما علاقة 
تركيبية oo‏ لذلك فإن فرصة ورود MAUS‏ مع WAM‏ في موضع أو 
عدة مواضع بالنسبة إليها تكون كبيرة إلى حد بعيد؛ ومن ثم فإن قيمة 
الموضع ‏ في الصيغة DOW)‏ تحدث بها قفزات كبيرة إلى حد بعيد. Lal‏ 
بالنسبة إلى الصيغ غير التصاحبية فنجد أن هذه القيمة لا تحدث بها فروق 
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لافتة للنظر. ويُظهر الشكل ١-4‏ درجة توزيع التصاحب بين المجموعتين “85 
"HBA, ATH, “7, HA‏ فالمجموعة الأولى درجة توزيع التصاحب فيها 
شديدة التباين» أما المجموعة الثانية فدرجة توزيع التصاحب فيها متجانسة. 
والبيانات اإحصائية للمجموعتين كما يلي: 


"BER, BEAT المجموعة الأولى:‎ 
rs (能 力 ， ER) =r (能 力 ， BR) =], rs 《能 力 ， BR) 
=8, r (能 力 ， ER) =0 (j = -5,-1,1,2,3,4,5) 


方面 ， 能 力 ' المجموعة الثانية:‎ 
r (REJ. JED- r (EH, FH)=2, + (能 力 ， 方 面 )=3, vr, (能 
A, Amr (FA, Amnn, A, r, (能 力 ， 方 面 )=0 
(j =-5,3,4,5) 





موقلح L252‏ المتصاحبة 


شكل :)١-4(‏ توزيع التصاحب بين كلمتي المجموعتين 
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تساوت عدد مرات مشاهدات مجموعتي التصاحب CEH, ER‏ 
و "27158 ,882" في الذخيرة اللغوية؛ حيث سجلت كل مجموعة ٠١‏ مرات 
ظهور. إلا أن الفرق بين توزيع التصاحب Led‏ بينهما كان كبيرا. فيالنسبة إلى 
درجة الانتشار MOM).‏ للتوزيع MM)‏ يمكن استخدام المعادلة التالية 
لحسايها: 


六 Intw wi)—r(w, WP 


j=-5 





u(w, Wi) = 10 


معادلة رقم )٤-٤(‏ : 


حيث تشير POI)‏ إلى متوسط عدد مرات ظهور الكلمة H‏ في 
المواضع المختلفة من الكلمة LW‏ 





معادلة رقم )0-8( 


Joh‏ البسط في المعادلة رقم (5-4) عن درجة التفاوت والانسجام بين 
FM) ao E‏ 


وعلى هذا الأساس يتم حساب درجة انتشار توزيع التتصاحب بين 
المجموعتين كما يلي: 
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r (能 力 ， 次 失 )= (1+1+8) /10=1 


4 (能 力 ， EK 
(1-1)? + )1-1(2 + (8-1)? +7x(0-1)})/10=5.60 


7 (8H, 方面 )= (2+34+14+1424+144%0) /10=1 


4 (能 力 ， 方 面 )= 
))2-1(2 + )3-1(2 + )8-1(2 +3x(1-1} + )2-7 


+4x(0-1)?/10=1.0, 
عندما يكون مدى التغير في التوزيع كبيراء فمن الممكن أن يحدث تبعًا‎ 
١-٤ لذلك :طفرة في أحد مواضع التصاحبء على سبيل المثال في الشكل‎ 
,لارا" تكون‎ ER عندما يكون موضع التوزييع 17-2 للتصاحب‎ 
وهذه القيمة تمّثل تجمعًا لمشاهدات التصاحب عند‎ 2 (BBA, ER) 
هذا الموضع. عندما نحصل على قيمة )71 في تجربة- 2 بمعلومية‎ 
يلي:‎ LCW, w) 


_ (ww) = rw, w,) 





Z;(ww;)= uw, w;) 


معادلة رقم )£-1( 


يكون شرط حدوث طفرة لظهور التصاحب في الموضع أ أن تكون 
ys 0‏ گاف: 
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طبقًا للشكل e-i‏ عندما يكون موضع التصاحب "HED, ER‏ 

4-2 يتم التعويض في المعادلة كما يلي: 
81 
zige, 19+ 6‏ 

وتظهر نتيجة المعادلة أن قيمة HEIR)‏ ,208820 أعلى من القيمة 
المتوسطة T(J, HEIR)‏ بمقدار .١‏ 45 درجة انحراف معياريء a Eh‏ 
بذلك طفرة في عملية التصاحب. 

وقد قام سوين ماو سونغ بتصميم طريقة أكثر دقة في حساب طفرات 
التصاحب بالنسبة إلى اللغة الصينية كما يلي: 

is — peak(w,w,) 

المدخلات: عدد مرات ظهور التصاحب بين أي زوج من التصاحبات 
7" في كل موضع من مواضع التصاحب كما يلي: 

r(w,w,)(j = -5,...,5) 

المخرجات: هل يوجد طفرة تصاحب أم SY‏ وما موقعها؟ 

يتم حساب متوسط عدد مرات التصاحب بين TOW) ley‏ 
بالإضافة إلى نتيجة معادلة OM MIT =P)‏ بالنسبة إلى كل موقع من 
مواقع التصاحب. 


تتفيذ الخطوات التالية مع كل حالات 1: 
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إذا كانت 1.00 < r(w,w;)‏ < 0.30 بالإضافة إلى أن: 


Z (w, w;) 2 2.50‏ ; أوء 


,Zi(w, w;) 2 2.00‏ أو 


(w, w) < 10.00‏ 9-005 بالإضافة إلى أن: 


可 « Zj( Ww) 2 1.50 
2;)۷,۷,( 21-00 بالإضافة إلى أن‎ Wm) 210.00, 


تكون J‏ موضع طفرة في التصاحب. وإلا فإن 7 لاتمشل طفرة 


طريقة الحساب السابقة تقسّم متوسط التصاحبات بين الكلمتين 
10 إلى عدة قطاعات» وتقوم بحساب قيمة ZOM)‏ لكل قطاع ES‏ 
فرة تصاحبية. والأرقام الموضّحَة سالفا قد تم تحديدها من خلال التجارب» 
وبصورة عامة فإن قيمة متوسط المشاهدات r(w,w;)‏ قليلة لأن عدد مرات 
مشاهدة التصاحب منخفضةء وعلى ذلك تكون درجة مرجعية البيانات 
الإحصائية ضعيفة؛ ولذلك ينبغي تعديل رقم البداية إلى رقم أعلى من ذلك؛ 
وعلى العكس من ذلك عندما تكون البيانات الإحصائية وافية» يمكننا تعديل 
رقم البداية إلى قيمة أقل. على سبيل المثال نجد أن التصاحب "229 ,887" 
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ظهر في ذخيرة XH-CORPUS‏ عشر مرات» وبناءً على ذلك كانت قيمة 
متوسط عدد مرات التصاحب eF )3496:8827(-٠٠ .١‏ وبذلك تكون درجة 
ضجيج البيانات مرتفعة إلى حد كبيرء ولو tal‏ قمنا بتعديل قيمة الفسرض 
. المبدئي إلى رقم أكبر (أكبر من ۲. )٠١‏ فسوف تكون النتيجة أن Y‏ 
(SERRE DOA‏ 2-2 وهذا الرقم يمكن أن id‏ مرجعية لحساب درجة 
ظهور الطفرة التصاحبية عندما تكون 7-2 . أما التصاحب "BEA, KT‏ 
فقد ظهر في الذخيرة عدد Of‏ مرةء وعلى ذلك يكون مقدار متوسط عدد 
مرات الظهور 5.40-(7)882,32: وهذا الرقم يمكن الاعتماد عليه» وعلى 
هذا يمكننا تقليل درجة البداية Su‏ (أكبر من .١‏ 2( وبذلك تكون ١‏ 
Zi (KAEH)‏ وهذا الرقم يمكن أن i)‏ مرجعية لتقدير ظهور: الطفرة 
التصاحبية عند j=]‏ 

إن قيمة متغير درجة التشتت والطفرة التصاحبية من شأنهما أن Loki‏ 
بيانات مرجعية تفيد في عمل دراسات كمية عن أبنية التصاحب اللغوي. 
ويرى سون ماو سونغ أنه على الرغم من أن هذين المتغيرين لهما قيمة 
مرجعية عاليةء فهما لا يكفيان لإثبات وجود التصاحب بمفردهما. 

وهناك عدد من التصاحبات تكفى درجة قوة التصاحب بين كلماتها 
لإثبات التصاحبء ولا يستلزم ذلك وجود درجة انتشار عاليةء وأكثر من ذلك 
قد لا يحدث بينها طفرة تصاحبية (من الواضح أننا لو انطلقنا فقط من درجة 
توزيع التصاحب فإن الطفرة التضاحبية سيكون مطلبًا صعب المنال بالنسبة 
إلى الكلمات المتصاحبة). ومن هناء فإن الاحتكام إلى متغيّري درجة الانتشار 
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والطفرات التصاحبية لا يتم اللجوء إليه إلا عندما تكون المعلومات الخاصة 
بقوة التصاحب غير كافية لاتخاذ قرارات صائبة. 

وفيما يلي نعرض مجموعة المتواليات المنطقية التي صممها سوين ما 
سونغ للحكم على وجود علاقة تصاحبية بين كلمتين؛ التي اعتمد فيها على 
حساب المؤشرات الثلاثة: درجة قوة التصاحب (معادلة (Y-£‏ ودرجة 
الانتشار (معادلة ££(‘ والطفرة التصاحبية (معادلة 1-8( 

وقد أطلق سوين ماو سونغ على تلك المعادلات اسم 
is — collocation(w, w,)‏ 

المدخلات: قوة التصاحب OC)‏ ودرجة انتشار التصاحب 
«OM Mi)‏ والمتوسط الحسابي لعدد مرات التصاحب TOW)‏ بالإضافة 
إلى عدد مرات التصاحب في كل موقع لله احب )5,...,5- = Z;(w,w,)(j‏ 


WW; 


لأي زوج من الكلمات 


المخرجات: الحكم على وجود علاقة تصاحبية بين كل من MME‏ من 


عدمه. 
13 كانت 0 > ,rT(w, w;)‏ فإن :۷,۷ لا ترتبطان بعلاقة تصاحبية. 
إذا كانت 2*30(" إذن فإن HW‏ ترتبطان بعلاقة تصاحبية. 
وإلاء إذا كانت 0 > yb „3.50 < s(w,w;)‏ إلى أن 


u(w,w,) 2 10.00 
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oy‏ ترتبطان بعلاقة تصاحبية. 
وإلا إذا كان . 3.50< s(w, w,)‏ < 2.50 5 بالا افة j‏ أن 
u(w, w,) > 20.00‏ 
يتم الحكم على أن ترتبطان بعلاقة تصاحب. 
وإلا إذا كانت 22.00) 80H‏ 
يتم التعديل إلى معادلة الطفرة التصاحبية PEAR)‏ - . 
إذا ظهرت طفرة تصاحبية 
إذن فإن We,‏ ترتبطان بعلاقة تصاحب. 
وإلا فإن w, w;‏ لا ترتبطان بعلاقة تصاحب. 
من خلال المتواليات المنطقية السابقة يمكننا أن نقرر أن هناك ثلاثة 
شروط تتأكد عندها العلاقة التصاحبية بين كلمتين: 
)۱( عندما تكون درجة القوة التصاحبية بين الكلمتين كبيرة بدرجة 
كافية» فلا حاجة لحساب درجة الانتشار. 
(Y)‏ كلما تناقصت درجة القوة التصاحبية زادت الحاجة إلى حساب 
درجة الانتشار. 
Laie (Y)‏ تنخفض درجة القوة التصاحبية إلى حد معين» يتأكد حدوث 


طفرة تصاحبية. 
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وهناك ثلاثة شروط لنفي وجود التصاحب: 


)١(‏ أن يكون عدد مرات ظهور الكلمتين معًا منخفضنًا بدرجة كبيرة 
والبيانات المُحصلة ليس لها مغزى إحصائي. 

(Y)‏ أن تكون درجة القوة التصاحبية منخفضةء ولم يصاحبها طفرة 
تصاحبية. 


(Y)‏ أن تكون درجة القوة التصاحبية منخفضة وعلى الرغم من حساب 
درجة التشتت والطفرة التصاحبية» فإن النتائج النهائية ليست ذات 
وقد قام سوين ماو سونغ بعمل تحليل تفصيلي لجميع أنواع حالات 
الظهور المشترك بين كلمة BEA"‏ والكلمات الأخرى في محيط قدره ES‏ 
كلمات وذلك على ذخيرة XH-CORPUS‏ التي يصل Lge‏ إلى سبعة 
ملايين ومائة ألف كلمة. وكانت نتيجة التجربة ما يلي: وصل عدد مرات 
ظهور كلمة "882" داخل الذخيرة إلى ۲۲١١‏ مرة (أي أن 
("C= 2241.10 > ge‏ كما وصل عدد الكلمات التي اقترن ظهورها مع 
. كلمة "8520" في سياق يصل طوله إلى 5+ كلمات إلى ۱۹۳۲ AS‏ وقد تم 
التعامل مع جميع هذه الكلمات على أنها CY ES‏ تكون من مصاحبات 
كلمة "REJI‏ تم استبعاد عدد ۱۳١١‏ كلمة بعد تحقيق الشروط الثلاثة لنفي 
وجود التصاحب: وكانت تفاصيل قرار الاستبعاد كما يلي: 
)1( تم استبعاد axe‏ 157 كلمة ينطبق عليها الشرط الأول لنفي 
التصاحب. 
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(Y)‏ تم استبعاد عدد 7٠١١‏ كلمة ينطبق عليها الشرط الثاني لنفي 
التصاحب. ٠‏ 

(Y)‏ تم استبعاد ١54 ore‏ كلمة ينطبق عليها الشرط الثاني لنفي 
التصاحب. تم الإبقاء على عدد ٠٠١‏ كلمة بعد تحقيق الشروط الثلاثة لإقرار 


التصاحب: 

أ - تم ash‏ علاقة التصاحب لعدد 4١١‏ كلمة وفقا للشرط الأول لتأكيد 
l ER E‏ 

ب - تم ash‏ علاقة التصاحب لعدد 77 كلمة وفقا للشرط الثاني لتأكيد 
PERE.‏ 


ج - تم ash‏ علاقة التصاحب sod‏ 1717 كلمة وفقا للشرط الثالدث 
لتأكيد التصاحب. وقد كان من بين الكلمات التي تم تأكيد علاقة التصاحب 
معها عدد AA‏ كلمة؛ ولا يمكن وجود علاقة تصاحب بينها وبين كلمة 能 力‏ 
(مثل كلمات الأعداد"۴ ,-" بمعنى coals’‏ ألف')» والكلمات المساعدة 
(مثل"7 (H‏ وأداوت العطف (مثل "218 "Al,‏ بمعنى "وء (Tel gan‏ 
والظروف (مثل 不 BE‏ بمعنى "لا النافيةء إلى حد ما")؛ وما إلى ذلك 
وباستخدام برمجية بسيطة من برمجيات الترشيح يمكن استبعاد تلك الكلمات 
من النتائج النهائية. وبالإضافة إلى ذلك؛ فقد كان هناك are‏ من أخطاء الحكم 
على وجود علاقة تصاحب وصلت إلى ۲۹ حالة؛ بسبب وجود Lha‏ في 
التقسيم الآلي لحدود الكلمات الصينيةء على سبيل المثال عدم اشتمال معجم 
التقسيم الآلي لحدود الكلمات لكلمة ' "调控‏ بمعنى "يتحكم" الأمر الذي أدى 
ببرمجية التقسيم إلى اعتبار أن "调控 能 力‏ بمعنى "القدرة على التحكم" يتم 
تقسيمها إلى 调 / 控 / 能 力‏ " ومن هنا ققد أدى ذلك إلى أن برمجية SAN‏ على 
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التصاحبات اللغوية اعتبّرت أن كلا من 能力‏ ,4“ و"8627 ,2#" تمثلان 
تصاحبين لغويين بمعنى 'لقدرة على النقل'؛ و'القدرة على توجيه الاتهام' 
على التوالي وهذا خطأ بالطبع. والحقيقة أن التصاحب هو WARE, EDD"‏ 
وبعد استبعاد عنصري الخطأ السابقين كانت حالات التصاحب التي تم 
تقريرها G‏ هي 41/8 حالة تصاحب. وبعد إجراء مراجعة من خلال العنصر 


البشريء تم إقرار عدد ١19‏ حالة تمثل تصاحبًا حقيقيًا. وبعبارة أخرى» فإن 


or 0 


١ فى استكر اج الفسساحبات اللقرية وتحديدها قد رسك‎ cided) دقة‎ dias 
| و‎ iad 5 في اسدخر اج‎ 


.1١۹/٤١۹4 VE‏ ويعرض لذا الجدول 5-14 جز le‏ من نتيجة التجربة 


التي تم إجراؤها على كلمة "8527" في اللغة الصينية. 


جدول o-i‏ عرض جزء من البيانات التجريبيةل 


(w= 能 力 FO) AL) 





















نعم )2813 1) 














强 3‏ 1651 91 نعم (تأكيد 1) 

4 | 35 17 9 تعم (تأكيد 1) 

提高 | 5‏ | 6058 205 نعم (تأكيد 1( 
ا ا 





نعم (تأكيد 1) 








18.20 











5788.36 10 
)2 نعم (تأكيد‎ | Sad 57.30 | 449 62 8701 fe |1 
(2 نعم (تأكيد‎ + 22.64 3.29 24 7760 | 组 织 | 2 





(2 XD نعم‎ 2- 24.16 
3- 0.85 
































53 3.84 3.10 
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تابع الجدول السابق 












| 
i 


aan] S oo [ore | 1 | san | # |‏ مسج | لما 
]2| :| + | ممت | jes] |o»‏ = | وميه | 
وقد عقد سوين ماو سؤنغ مقارنة بين كل من نتائج التصاحبات التي 

"887" التي وردت في (المعجم الكبير في اللغة الصينية الحديثة) 
,现代 汉语 辞海‏ نظرا إلى أن هذا المعجم هو أكثر معجم قام بتغطية 
الخصائص التصاحبية للكلمات الحقيقية في اللغة الصينية iina]‏ بصورة 
تكرارها بين نتيجة التجربة والمعجم» LÍ‏ الجزء (b)‏ من الجدول فيعرض 
التصاحباك التي لم يتكرها panel)‏ ويمثل هذا الجدول في dui Cog‏ 
القائمة الكلية للتصاحبات اللغوية مع كلمة "能力‏ التي تم استخراجها آليّا بعد 
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جدول 1-4 التصاحبات اللغوية التي تم استخراجها GÑ‏ بعد مراجعتها عن طريق 
pais‏ بشري 
(المجموع ١١8‏ تصاحبا) 
(a)‏ 


培养 判断 鉴赏 生产 竞争 制造 运输 加 工 支付 偿还 
平衡 消化 吸收 繁殖 实际 具备 缺乏 提高 强 弱 AK AM 
增强 具有 业务 劳动 适应 领导 组 织 分 析 保护 发 挥 工作 
技术 专业 管理 创造 运输 发 电 KK 防御 指挥 

(b) 

反应 扩大 综合 形成 达到 设计 抗灾 开采 影响 排水 
客运 保障 承受 一 定 执政 反应 安置 配套 不 足 超过 HO 
自立 创汇 动手 吞吐 增加 运行 足够 防务 操作 处 理 作战 
通信 同等 自给 自理 防守 减弱 现 有 约束 作业 防卫 鉴别 
通航 负重 不 够 生存 隐蔽 科研 失去 抗 病 炼油 腐蚀 
后 续 识别 抗旱 削弱 限制 识字 存储 自主 对 抗 核算 机 动 
消费 分 流 超出 防洪 自卫 干扰 免疫 FE 信任 WA 供给 
应 急 饲养 运算 扑救 防疫 驾驭 筛选 参政 相应 采油 整体 
通行 核定 载荷 维修 运载 接待 保存 AH 保鲜 装备 耐寒 
通车 转换 防范 自救 联运 决策 独到 起 重 输送 新 有 开发 
服务 群众 发 展 测量 显示 突破 依靠 强化 控制 经 营 供应 
下 降 监 督 低 核 拥有 


ويشير الاستقراء الذي ol yal‏ سوين ماو سونغ على التصاحب داخل 
الذخيرة إلى ما يلي: 
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)1( أن كلا من القيم الإحصائية الثلاث: القوة التصاحبية SOW)‏ 
ودرجة الانتشار KOW)‏ والطفرة التصاحبية قيم إحصائية مناسبة 
لعمل تحليل كمي للتصاحب اللغويء إلا أنها لا تتعدى كونها 
مؤشرات نسبية» والدليل على ذلك أن الجدول رقم 5-4 قد احتوى 
أمثلة Lis‏ خطنًا في الحكم؛ نظر! إلى عوامل مختلفة. 

. . أن الخصائص التوزيعية للبيانات الإحصائية تعكس بدرجة كبيرة‎ (Y) 
الخصائص التركيبية للتصاحب.‎ 

فالشكل ۲-٤‏ يوضح أن جميع حالات التصاحب بين كل من 

HEN, AB‏ عبارة عن تركيب فعل ومفعول (حيث ظهرت الطفرة 
التصاحبية في الموقعين Y-Y-‏ أما الشكل 4-" فيُظهر أن جميع حالات 
التصاحب بين كل من BY‏ ,88237" عبارة عن تركيب إسنادي dya)‏ ظهرت 
الطفرة التصاحبية في الموقع »)١+‏ أما الشكل )££( فيُظهر أن التصاحب 
SRR‏ ,8" قد يكون تركيبًا من فعل ومفعول (حيث ظهرت الطفرة 
التصاحبية في الموقعين -7.-4)» وقد يكون أيضنًا تركيبًا إسناديًا؛ Lal‏ الشكل 
eE 5-4‏ أن التصاحب بين BML"‏ ,8827" قد حدث معه طفرة تصاحبية 
كبيرة (في الموقع -١)؛‏ وهذا يعبر عن نموذج من نماذج التصاحب اللغوي 
القياسي في اللغة الصينية وهو التعبيرة الاسمية المكوّئة على هيئة مضاف 


ومضاف إليه أو صفة وموصوف. 
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à 
3 
3 
1 
3 


شكل ۲-٤‏ توزيع. 


J 


BH - AA" 


f 


Hl 


8 ظ 8 م 


عدد مرات ظهور الكلمتين Vie‏ 


n 





موقع الظهور 


شكل Y-i‏ توزيع 


差 


力 


能 


1 


357 





4 
3 
3 
i 
a 


-2 11 


3 


5 4 


موقع الظهور 


شكل 4-4 توزيع 


a 


能 力 -提高 


EE 


4 
+ 
3 


[EP 





2 -A 


3 


5 4 


موقع الظهور 
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(Y)‏ أن التصاحب tly‏ بتغير المجال اللغوي. فالتصاحبين اللغويين: 
المتفق عليهما من الجميع 读 能 力‏ " بمعنى "القدرة على Ciel pill‏ 
写作 能 力 ，‏ بمعنى "القدرة على الإنشاء" لم يظهرا في ذخيرة 
XH-CORPUS‏ بسبب اختلاف المجال اللغوي.وحتى إذا تم تحديد 
المجال اللغوي؛ فإن حجم الذخيرة وطرق اختيار عينات النصوص 
من شأنه أن يؤثر تأثيرًا شديدًا في عملية إحصاء التصاحب» كما في 
الجدول 5-4 حيث نجد أن التصاحبات "2528827" (درجة القوة ` 

| التصاحبية ERE g (EY‏ (الطفرة التصاحبية عند 
الموقع -١)ء‏ و"6827 9886" (درجة القوة التصاحبية (AY VY‏ 
على الرغم من أن عدد مرات الظهور كانت مرة واحدة» فالجميع 
يتفق على أن كل هذه المجموعات تمثل تصاحبات لغوية. إلا أنه 

بالنظر إلى البيانات الإحصائية الخاصة بها نجد أنها بمشقة قد 
tay cay,‏ القع اكت لعن ا نل lid‏ عد مجر نا 
ظهورها Jala‏ ذخيرة XH-CORPUS‏ فقد تم استبعادها من 
القائمة النهائية للمتصاحبات. | 

)£( أنه بالنسبة إلى قيمة الفرض المبدئي يتم تحديدها كقيمة وسط بين 
كل من معدل الدقة (يقصد به نسبة ما تم إقراره من تصاحبات عن 
طريق تدخل العنصر البشري مقارنة بما تم اكتشافه بواسطة الآلة) 
ومعدل الارتداد (يقصد به نسبة التصاحبات التي tA‏ الآلة مقارنة 
بالعدد الكلي للتصاحبات المٌرشحة داخل الذخيرة). وبصورة ake‏ 
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كلما ارتفعت قيمة البدايةء ارتفع تبعًا لذلك معدل الدقةء وعلى 
العكس من ذلكء كلما انخفضت قيمة البدايةء ارتفع معدل الارتداد 
وانخفض تبعًا لذلك معدل الدقة. 


وقد كانت الدراسة الاستقرائية لسوين ماو سونغ على الذخيرة تسعى 
إلى اكتشاف أكبر قدر من التصاحب اللغوي بغض النظر عن دقة النتائج 
النهائيةء على اعتبار أن زيادة العدد أفضل من القصور في الحصر؛ ولذلك 
فقد كان متحفظا في تحديد قيمة البداية. 

وإذا أردنا أن نعرف هل %۳١‏ تقرييًا كمعدل دقة لنتائج التصاحبات 
فيما يتعلق بكلمة 能力‏ منخفض أم لاء يمكننا أن نطلع على ما أشار إليه 
منمادجا من أن معدل دقة نتائج التصاحبات التي تم اتباعها يدويًا في تأليف 
معجم Oxford English Dictionary (OED)‏ كانت %٤‏ تقريبًا. وعن طريق 
المقارنة يمكننا لقو ل: إن الاستعانة بالحاسب الآلي في اكتشاف التصاحب 
اللغوي يفوق العمل اليدوي» وأن فاعلية النتائج باستخدام الحاسوب أعلى 
بدرجة كبيرة. بالإضافة إلى ذلك فإن استخدام الأسلوب اليدوي من شأنه أن 
يتأثر سلبًا بالعوامل البشرية؛ لأن الإحساس اللغوي يختلف من باحث إلى 
آخر؛ لأن ذلك له علاقة باختلاف المستوى اللغوي والخلفية المعرفية لكل 
شخص» ومن هنا تكون أحكام البشر على التصاحب خالية من الموضوعيةء 
yes‏ الصعب التنسيق Lad‏ بينهم. LÍ‏ استخدام الحاسب الآلي في عمل تحليل 
كمي للتصاحبات اللغوية داخل ذخيرة لغوية كبيرة الحجم من المؤكد أنه 
يخفف قوة ضغط العمل على اللغويين» ويرفع من كفاءة النتائج ومساحة التغطية. 
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الفصل الرابع 
دراسات التصنيف الدلالي للأسماء في اللغة الصينية 


من المعلوم لدى الجميع أن التصاحب بين الاسم والكلمة الكمية') من 
الظواهر المهمة التي تميز اللغة الصينية عن اللغات الهند أوروبية. ويرى 
:العديد من العلماء أن الفائدة الأساسية لتراكيب الاسم + الكلمة الكمية في اللغة 
الصينية الحديثة هي تصنيف الأسماء دلاليًا. ولذلك فإن إجراء استخراج كمي 
على ذخيرة كبيرة الحجم للتعرف على البيانات AESI‏ لتصاحبات الاسم + 
الكلمة الكمية من شأنه أن يساعد في وضع آلية للتصنيف الدلالي لأسماء 
اللغة الصينيةا). وكانت تلك هي الخلاصة التي توصل إليها العلماء 
التايوانيون خوانغ جو رن» وتشين كه جيان» slay‏ جاو مينغ من خلال 
الدراسة التي أشرفوا عليها. وقد استعانت هذه الدراسة بشكل مباشر بالبيانات 
التصاحبية عن الأسماء + إلكلمات الكمية التي استخرجها مؤلف الكتاب مسن 
ذخيرة أبحاث اللغة الصينية. وعلى أساس تلك البيانات الكمية الثابتة استعانوا 
بمعادلة الضجيج المعلوماتي في حساب محتوى المعلومات داخل تركيب 


)1( انظر الفصل السابق صفحة YEE‏ (المترجم) 
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الاسم + الكلمة الكمية مع الاستعانة بأسلوب المُتّجَهات() (vectors)‏ في 
حساب مقدار التقارئب (الدلالي) بين مجموعتين من المجموعات الاسمية. وقد 
توصل البحث إلى أن استخدام الطريقة سالفة الذكر من شأنه أن يُرشد في 
التوصل إلى نظام يمكن الاعتماد عليه بشكل كبير في تصنيف الأسماء في 
اللغة الصينية. وقد استعان الكتاب الذي بين يدي القارئ بهذا المثال للتعريف 
بالدراسات اللغوية القائمة على ذخائر لغوية» ويرجع ذلك إلى السببين 
التاليين: 
)1( إن هذه الدراسة قد اعتمدت على أمثلة حقيقية عن تراكيب الاسم 
+ الكلمة الكمية والبيانات الإحصائية المتعلقة بهاء التي تم 
استخراجها مباشرة من ذخيرة معهد الدراسات المركزي بتايوان» 
وقد عُرِضّت نتيجة الدراسة في (معجم الكلمات الكمية المستخدمة 
في تايوان) الصادر عام ۱۹۹۷ عن درا نشر الصحافة بتايوان. " 
(Y)‏ إن عمل تصنيف لأسماء اللغة الصينيةء وفقا لحالات اقترانها مع 
الكلمات الكمية يتحتم عليه إجراء تمثيل شكلي مستقل عن حالات 
اقتران الكلمات الكمية مع الأسماءء بالإضافة إلى عرض المعادلات 
الخاصة بحساب درجة التشابه فيما بينها. ففي هذه Aad pall‏ يتم 


(Vector) apta) )١(‏ مصطلح في الفيزياء يعني قيمة لها حجم واتجاهء ويتم تمثيلها بسهم 
يُعبّر عن اتجاهها من نقطة إلى أخرىء والكمياث المُّتجّهة تختلف عن الكميات العددية 
في أنه لا يمكن الاكتفاء عند تحديدها بقيمة عددية chii‏ وإنما نحتاج أيضًا إلى تحديد 
اتجاهها. وقد استعان علماء اللغة بهذا المفهوم في حساب درجة اتجاه التصاحب بين 
الكلمات كما يشير النص. (المترجم) 
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حساب الحمل المعلوماتي( الخاص بالكلمة الكمية (يطلق عليه 
Lal‏ اسم الإنتروبي أو مقياس درجة الفوضى) من خلال عدد 
الأسماء التي يمكن أن تقترن معه؛ أما معاني كل اسم من تلك 
الأسماء فيتم التعبير عنها من خلال مجموعة الكلمات الكمية التي 
يمكن أن يقبل الاقتران بها (المتّجّهات التي تتكون من ذلك 
الاقتران). ولذلك فمن خلال حساب الفرق بين Leai‏ الأسماء 
يمكننا عمل تصنيف لمجموعة clad‏ داخل اللغة؛ ومن É‏ التوصل 
إلى آلية للتصنيف الدلالي لها. إن التمثيل الشكلي للمادة اللغوية التي 
يتم معالجتها وتصميم معادلة مناسبة لحساب طريقة التعامل معها 
تمثل أسلوبًا Geis‏ للنمذجة اللغوية (modeling)‏ بالإضافة إلى 
إمكانية تعميمه. 
وحتى نفهم العمل البحثي الذي قام به خوانغ جو رن وفريقّه البحشيء من 
الضروري أن نشرح بشيء من التفصيل مفهوم الحمل المعلوماتي الخاص Ss‏ 
عشوائي والذي ورد في نظرية المعلومات للعالم كلود شانون -[89](Shannon)‏ 
بافتراض أن إس i‏ عن الأحداث العشوائية Er Erme En‏ فإن احتمال حدوث 


)1( الحمل المعلوماتي أو (الإنتروبي) (entropy)‏ أو مقياس درجة الفوضى مصطلح في 
الفيرياء والكيمياء يشير إلى التغير والتحول إلى حالة من الفوضى على المستوى 
الجزيئي في نظام ماء كمثال اختلاط نقطة حبر بالماء» في البداية يكون توزيع ذرات 
الحبر في الماء غير منتظم» وبعد انقضاء فترة زمنية يكتسب الماء لونا متجانساء» ومن 
هنا يمكننا اعتبار درجة الحيرة أو الإنتروبي مقياسا لعدم التأكد أو مقياسَا لعدم 
الانتظام. (المترجم) 
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أي حدث من تلك الأحداث Fe‏ يرمز له بالرمز PE‏ وطبقًا للمبادئ الأساسية لعلم 
الاحتمال فإن: != يم +...+ يم + OSP Sl, Pp‏ 


والحمل المعلوماتي لحدث محدّد :© يُحْسَب من المعادلة: 


I(E,;) =—log, P; (bit) 


(v-t) معادلة رقم‎ l 


وطبقا لبديهيات علم الاحتمال يمكننا أن نغرف أن الحمل المعلوماتي 1 
أكبر من الصفر؛ وأنه كلما قلت قيمة احتمال ظهور الحدث» زادت قيمة 
الحمل المعلوماتي المصاحب له. الأحداث المؤكذة يكون الحمل المعلوماتي 
الخاص بها (1> ) يساوي صفرا؛ أي أن ظهورها من الأحداث المتوقعةء 
وعلى هذا فهي لا تحمل إلينا )4 معلومات. : 

يمكن الاستعانة بقيمة درجة الحيرة (الإنتروبي) AOS)‏ في الرسالة 
الكلامية للتعبير عن قيمة المتوسط الإحصائي لكمية المعلومات الخاصة بكل 
عنصر من عناصر الرسالة الكلامية 5؛ وذلك Gig‏ لكمية المعلومات TE)‏ 
التي يحملها كل حدث داخل الرسالة الكلامية Saal!)‏ المعلوماتي) S‏ كما 
توضح المعادلة التالية: | 


ial (bit) 


معادلة رقم (A-£)‏ 
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ونظر! إلى أن Led‏ الحمل المعلوماتي للحدث العشوائي تزداد بزيادة 
درجة عدم اليقين من حدوثه؛ لذلك يمكننا الاعتماد على قيمة الحيرة في 
الرسالة الكلامية (الإنتروبي) كمقياس لدرجة عدم اليقين في حدوث تلك 
الرسالة. وعلى هذا الأساس» لا يمكن أن تكون درجة الحيرة في الرسالة 
الكلامية (الإنتروبي) قيمة سالبة» فكلما زادت قيمة درجة الحيرة ارتفعت تبعا 
لها قيمة عدم اليقين في حدوث الرسالة. وعلى العكس من ذلكء إذا كانت 5 
رضالة كلامية مؤكدة الحدوثء فإن قيمة درجة الحيرة لها تكون صفرًا. 

على فرض أن هناك رسالة كلامية بها عدد N‏ من الأسماء» ومن بين 
هذه الأسماء هناك الاسم يمكن أن يتصاحب ظهوره مع الكلمة الكمية. ×ء 
إذن الحمل المعلوماتي لهذه الكلمة الكمية يساوي الفرق بين درجتي الحيرة 
(الإنتروبي) التاليتين: 


I(X)=H(N)-H(n) 


معادلة رقم )£-4( 
وإذا كان احتمال ظهور كل من الاسم والكلمة الكمية متساوء فإن 


احتمال ظهور اقتران بين كل اسم ضمن مجموعة الأسماء N‏ وكلمة كمية 
1 
معينة يساوي ۷ ٠‏ ودرجة الحيرة له يتم حسابها كما يلي: 
H(N)=-Y log) =log, N‏ 
ia N N‏ 


معادلة رقم )٠١-54(‏ 
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وبالطريقة نفسها فإن درجة الحيرة لاقتران الاسم ” داخل رسالة كلامية 


8000- 5( ~log,(~)=log,1 


معادلة رقم )١١-54(‏ 
ومن هنا فإن الحمل المعلوماتي للكلمة الكمية X‏ يُحْسب من المعادلة التالية: 
«رع10- I(x) =log, N‏ 
معادلة رقم (4-؟7١)‏ 
ونظرً! إلى أن N‏ قيمة ثابتة» فإن المعادلة السابقة يكيرنا أنه كلما قل 
عدد الأسماء التي تقترن بكلمة كمية معينةء زاد Goal‏ المعلوماتي لهذه الكلمة 
الكميةء وزادت CS‏ لذلك قدرة هذه الكلمة في المساهمة في عمل تصنيف 
دلالي للأسماء في اللغة الصينية. وهذا يتفق إلى Se‏ كبير مع الشعور البديهي 
لكل منا. 
عندما نستخدم GIT‏ متعدد الأبعاد للتعبير عن كل اسم (أو مجموعة 
أسماء) داخل السلسلة الكلاميةء فإن كل بُعْد من هذه الأبعاد jay‏ عن كلمة 
كمية محددة داخل السلسلة الكلامية» وقيمة المُتجه في بُعْد معين من تلك 
الأبعاد يساوي Saal‏ الملعوماتي لهذه الكلمة الكمية (المعادالة )٠١-4‏ وإذا 
كان هذا الاسم de gapa sl)‏ الأسماء) لا يمكن أن تظهر مع كلمة كمية معينة» ' 
فإن قيمة apid‏ الخاص بها يساوي صفرًا. وعلى أساس ما a‏ عنه 
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+ oyu بين‎ (affinity) يمكن قياس درجة التقارب الدلالي‎ capial 
$e مجموعتين من الأسماء) عن طريق حساب الفرق بين قيمة‎ 

a eh A, 

الأسماء تقوم بإنشاء تصنيف جديد للأسماء عن طريق ضم أكثر اسمين 
متشابهين معا في تصنيف واحدء وقد نشأ عن ذلك في النهاية شجرة دلالية 
للأسماء. وقد كانت خطوات الحساب التي أدت إلى عمل تصنيف للأسماء 
كما يلي: 

)١(‏ من خلال المعادلة 2.١ Y-£)‏ تم حساب الحمل المعلوماتي لعدد 
AY‏ كلمة كمية. 

(Y)‏ تم اعتبار أن كل كلمة كمية من ال VAY‏ كلمة Lyla)‏ بعد واحد 
داخل dade‏ ذي of VAY‏ الحمل المعلوماتي لكل كلمة كمية 
يساوي قيمة من قيم المج متعدد الأبعاد. 

(5) كل نوع من أنواع الأسماء يساوي متها من تلك المتجهات» وهذا 
ap Tall‏ يتم الاعتماد عليه في تحديد قيمة A SN‏ الخاص بكل 
الكلمات الكمية التي تتصاحب مع هذا الاسم وفي وضع تعريف لهذا 
التصنيف من تصنيفات الأسماء. 

)£( بصورة متكررة» يتم ضم أي تصنيفين متجاورين من تصنيفات 
الأسماء بشكل عشوائي في مجموعات لتكوين تصنيف جديدء 
واستخدام قيمة As‏ المقابل لهما في التعبير عن ذلك التصنيف» 
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وهذا apial‏ الجديد عبارة عن متوسط قيمة المُتّجهين الأصليين 
لهذين التصنيفين (أي 2/2" )). ويتم تكرار هذه الخطوة غير 
مرة إلى أن يتبقى تصنيف مفرد. | 
في الخطوة الأولى مما سبق تم التوصل إلى حساب الحمل المعلوماتي 
لكل كلمة كمية. وقد أظهرت نتيجة البحث أن أقل كلمة كمية من حيث الحمّل 
المعلومات هي الكلمة الكمية CHA‏ حيث كان الحمل المعلوماتي الخاص بها 
هو 1614 وهذه نتيجة غير متوقعة؛ وذلك GY‏ الكلمة الكمية "۸" هي أكثر 
الكلمات الكمية التي يتفق عليها الجميع من حيث الوسطية والشيوع؛ حيث 
يزداد ase‏ الأسماء التي تتصاحب مع هذه الكلمة الكمية؛ ومن تَمَّ فإن قدرتها 
على المساهمة في عمل تصنيف للأسماء ضئيلة للغاية. وباستمرار 
استعراض النتيجةء نجد أن الكلمة الكمية "AZ"‏ التي وصل حملها المعلوماتي 
إلى مقدار ٠٠۳٠۳‏ هي كلمة كمية عامة pT‏ مع الأسماء التي Sich‏ عن 
أسماء الجنس البشري. والكلمات الكمية التي تقترب قيمة الحمل المعلوماتي 
لها من الكلمة الكمية "5" هي CHP AL‏ و" وهذه الكلمات الكمية من 
الكلمات العامة التي تقترن مع عدد كبير من الأسماء. كانت الكلمات الكمية 
HR‏ و" BE y CHR y‏ ذات أكبر قيمة للحمل المعلوماتي للسلسلة 
الكلامية الاسم + الكلمة الكمية؛ حيث وصلت إلى ١١١57‏ وذلك GY‏ كلا 
منها لم تقترن إلا باسم واحد. 


)1( الكلمات الكمية في اللغة الصينية لها استخدام وظيفي للفصل بين العدد والمعدود كما 
أسلفناء وليس لها معنى مقابل في اللغة العربية . (المترجم) 
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وعلينا أن نلاحظ أنه في الخطوة الثالثة تم استخدام قيمة apial‏ المُعبّر 
عن كل مجموعة من مجموعات الأسماء في التعبير عن تعريف للعدد الكلي 
للكلمات الكمية التي يمكن أن تتصاحب مع تلك الأسماء. وفي علم اللغة يمكن 
شرح تلك الطريقة على أنها: استخدام جميع الكلمات الكمية التي يمكن أن 
تقترن مع الأسماء في وصف الخصائص الدلالية المشتركة التي تتمتع بها 
تلك المجموعات من الأسماء. Mily‏ فإنه نتيجة لعدم القدرة على التمييز بين ` 
مجموعات الأسماء التي تشترك في التصاحب مع كلمة كمية واحدة» يتم 
اتخاذ قرار منطقي بضمها lee‏ في تصنيف واحدء بالإضافة إلى التعبير عنها 
بمتجه واحد. لذلك» فعلى الرغم من أن معجم الكلمات الكمية يضم عدد 
٠‏ لاحقة اسمية وما يزيد عن ٠٠٠١‏ مادةء فإنه لم يتم التقسيم إلا إلى 
عدد 007 سلسلة كلامية من اسم + كلمة كمية مختلفة والمُتّجهات الخاصة بها. 

إن نتيجة عملية التصنيف سالفة الذكر قد تم: التوصل إليها من خلال 
تصور شجرة ذات فرعين. وكل طرف من أطراف تلك الشجرة يشير إلى 
- اسم من الأسماء يشار إليه من خلال الكلمات الكمية التي تقترن معه. وأي 
اسمين بينهما أكبر قدر من التقارب في القيم يتم ضمهما Ga‏ في تصنيف 
اسمي جديد. ويتم تكرار تلك العملية إلى أن يتم وضع جميع الأسماء في 
تصنيف ينتمي إلى شجرة واحدة. إن مدى مناسبة ومصداقية الفرض وطريقة 
الحساب التي اعتمد الكاتب عليها يتوقف على مدى قدرتنا على تقديم تصنيف 
دلالي مناسب انطلاقا من تلك الشجرة التي تم التوصل إليها. | 

وتشير نتيجة التجربة التي قام بها خوانغ جو رن وفزيقه البحشي أن 
الشجرة التي يقل عدد أفرعها عن أربعة أفرع» يمكن الحصول منها على 
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نتيجة تصنيف دلالي موثوق بها. وقد حصلوا من خلال تلك الطريقة على 
۷١-٠۰‏ تصنيفا له مغزى من تصنيفات الأسماء» ويعرض الشكل 1-4 
تصنيفين من تلك التصنيفات. 
شكل :)1-٤(‏ جزء من نتيجة التصنيف الدلالي للأسماء 
a 房子 ， 屋子 [个 ， 栋 ， 间 ， Wi]‏ 
ao, RE, BE, HS, BS, ARR, E, i]‏ 
ea, RIS, E, te, fal, W]‏ 


ae, N, KE, TE, PEKUE, HE, AB 
， AF, FF, BS, BS, SRR, HR, M, iğ] 


镖 ， 飞 镖 [ 支 ， 枝 , t] 
WARM, MY, i, SH, AB, SHI, &] 


b. 栋 杆 ， fF, RE, WE, 4%, ， 矢 REI 
X, K, ^, MIM, KE, F, BH, KF, 
ITRE, RE, KBE, 警棍 ， 烟 卷 [ 支 ， 枝 ，' 根 ] 


KH, HE, SUR, BR, 18 , FM, KRM. 
FM, 长寿 烟 [ 支 ， 枝 , 根 ， 条 ] 


EF, 电线 杆 [ 支 ， 枝 ， 个 ， 根 ， 排 ] 

كما أظهرت نتيجة التجربة أنه عندما تزيد أفرع الشجرة عن خمسة 

أفرع فإن النتيجة تشير إلى اختلافات كبيرة يتعذر معها التصنيف» وفيما يلي 
نقدم شرحًا لأسباب ذلك: l‏ : 




















)1( من المحتمل ألا تكون قيمة EY‏ الجديد الذي يُحسّب بعد عملية 
الجمع بين الأسماء غير مؤكدة. وهذا الوضع يؤدي إلى اختفاء 
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. بعض العناصر بصورة سريعة؛ وذلك GY‏ عدم تمييز الكلمات 
الكمية غير الاقترانية في أثناء حساب الحمل المعلوماتي لمجموعة 
الكلمات الكمية موضع الدراسة يؤدي إلى حدوث تصنيف خادع 
وغير واقعي للأسماء. ولذلك نجد أن هذه الطريقة لا LESS‏ من 
تمييز حالتي التضارب الدلالي وعدم الارتباط الدلالي. وإذا تحدثنا 
من الناحية النظرية نجد أن الفئتين الفرعيتين اللتين بينهما تضارب 
دلالي تضنعف كل منهما الأخرى. وهذا يعني أنه بالنسبة إلى الفئات 
الجديدة التي يتم التوصل إليها فإن هذه الخصائص المحدّدة غير 
ذات صلة. ومع ذلكء فإذا لم تكن هناك علاقة بين الكلمات التي لا 
تتصاحب مع تلك الكلمات؛ التي تم تجميعها في تصنيف واحدء فإن 
الخصائص الدلالية التي تم ترميزها لتوضع في فئة فرعية أخرى 
ما زالت هناك إمكانية لتأثرها بتلك الفئات التي تم تكوينهاء ومن هنا 
يتضح أن قدرتها الوصفية تضعف. وحتى يمكننا حل هذه المشكلة 
فإن هناك حاجة إلى تصميم نموذج أكثر دقة. ولكن هذا النموذج 
يتطلب أن تشير المعاجم ضمن بياناتها إلى معلومات توضح 
الأسباب التي تمنع تصاحب كلمة كمية معينة مع مجموعة من 
الأسماء. ومن الناحية المنهجية فإن هذا الوضع سوف يؤدي إلى 
عدم إمكانية استخدام البيانات التجريبية في إثبات الفروض موضع 
الجدل. ولذلك فقد كان من غير المجدي التعمق في هذا الاتجاه. 








(Y)‏ دائمًا ما يكون هناك لبس في عملية مراقبة الكلمات الكمية. على 
سبيل المثال الكلمة الكمية "HR"‏ تشير إلى سبع خصائص دلالية 
كما يلي: 

(أ) أشياء طويلة ورفيعة. 

)=( حيوانات طويلة. 。 

(ج) أشياء طويلة فوق الأرض (نفق- قناةء وما إلى ذلك). 

(د) خط Ley‏ في ذلك الخطوط التجريدية. 

(ه) ocy gil‏ لائحةء خير. 

(و) مصير. 

(ز) أغنية. وقد اعتبّر خوانغ جُو رن وفريقه البحثي في دراستهم كل 
كلمة كمية عبارة عن علامة وحيدة» ولم يتجهوا للتمييز بين 
خصائصها الدلالية المختلفة. وفائدة ذلك تكمن في سهولة المعالجة؛ 
ولكن من الممكن أن aid‏ الكلمات ذات الخصائص المختلفة في فئة 
واحدة؛ وذلك بسبب أن لها علامات شكلية متشابهة. ويستعين 
خوانغ جو رن وفريقه البحثي Gla‏ بالمعلومات الواردة في معجم 
للكلمات الكمية ومعجم آخر لتصاحبات الكلمات الكمية مع الأسماء؛ 
للحصول على علاقات تصاحب أكثر. تفصيلا والوقوف على حصر 
لجميع المعاني لكل كلمة كمية. وعلى هذا الأساس فقد زادت 
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مجموعات الأسماء وفقا للحقول الدلالية إلى ما يزيد عن الضعف؛ 
ghee gee‏ 31 متصوعة: وذ اذى ذلك الى تكن م 
التمييز الصحيح لمجموعات الأسماء التي تم تصنيفها بصورة 
خاطئة؛ بسبب نقص تفاصيل استخدام الكلمات الكمية في أثناء 
عملية التحليل الأولى. وسوف يؤدي ذلك إلى نتيجة أفضل بالنسبة 
إلى عمليات التصنيف الدلالي للأسماء. 
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الفصل الخامس 
استقراء إشكاليات التداخل المعجمي النحوي 


عن طريق استعراض التراكيب النحوية المختلفة ذات الصلة بمجموعة 
من الكلمات المترادفةء يمكننا أن es‏ أكثر الكلمات GA‏ من حيث المعنى» 
بالإضافة إلى أنه من خلال استعراض أنواع الكلمات المختلفة التي ترتبط 
بالتركيب النحوي للمترادفات يمكننا أن Sha‏ بين التراكيب النحوية الأكثذر 
تشابهًا. وهذا النوع من الدراسات يُطلق عليه اسم: دراسات التداخل المعجمي . 
النحوري .(Lexico-grammatical associations)‏ 

وقد قام بيبر (Biber D)‏ بعمل استعراض للعلاقات التحوية المتعلقة 
بصفتين مترادفتين في المعنى بدرجة كبيرة وهما «'little”‏ و"11دعدة"'؛ وذلك 
في محاولة للتمييز بين هاتين الصفتين من خلال أنماط الاس تخدام 
المختلفة[90]. وقد cs ll‏ الدراسة أنه على الرغم من أن معنى هاتين 
الكلمتين هو "صغير" بالإضافة إلى أنهما تستخدمان ala‏ في موقع النعت أو 
المسند في الجملةء فهناك اختلاف واضح بينهما في درجة تَحَيْرْ لكل منهما 
في مدى الاستخدام في هذين الموقعين النحويين» وهذا aa‏ تجاه وظيفة 
نحوية ما Liga‏ عن الأخرى له علاقة وثيقة بسياق الاستخدام. 


ففي اللغة الإنجليزية تقع النعوت الوصفية (attributive adjectives)‏ 
قبل الاسم في الجملةء وتُستخدم في تقديم معلومات تخص ذلك الاسم. على 
سبيل المثال: 
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"The little girl next door pulled him through the fence". 


"But Pm not a small person". 

أما الصفات التي تأتي في موقع المسند فترد بعد الأسماء الموصولة 

«(copula)‏ ووظيفتها تقديم معلومات عن المسند إليه داخل الجملة» على سبيل 
المثال: 

"When she was little, she couldn’t say Jessica". 

"Did you think it would be too small?" 


وتضم الذخيرة التي تم العمل عليها جزأين: الجزء الأول عبارة عن 
ذخيرة من نصوص حوارية يصل حجمها إلى خمسة ملايين كلمة تم 
اجتزاؤها من ذخيرة بي إن سي (BNC)‏ والجزء الثاني عبارة عن ذخيرة 
من نصوص علمية يصل laaa‏ إلى خمسة ملايين كلمة تم اجتزاؤها من 
ذخيرة لونجمان- لانكاستر .(Lancastter-Longman)‏ وقد تم عمل ترميز 
آلي لأنواع الكلمات داخل الذخيرة بأكملها؛ حيث أضيفت إلى كل كلمة 
معلومات CE‏ نوعها النحويء بما في ذلك علامات لتمييز النعوت الوص Agi‏ 
ELENA P‏ 

Ahir Del 
في حالات ورودهما كنعوت خبرية:‎ "small" g 
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وتظهر نتيجة الإحصاء أن غالبية حالات ظهور هاتين الصفتين في 
الذخيرتين تتجه إلى موقع النعت في الجملة وليس موقع المسند. وفي الوقت 
نفسه أظهرت نتائج الإحصاء أن كلمة Gg “small”‏ بنسب أكبر بكثير من 
“little”‏ في موقع المسند؛ حيث كانت النسبة في النصوص الحوارية HYY‏ 
وفي النصوص العلمية وصلت إلى MONT‏ في حين أن نسبة ظهور كلمة 
“little”‏ في موقع النعت الخبري كانت قليلة بشكل ملحوظ HY)‏ في 
النصوص الحواريةء وأقل من %١‏ في النصوص العلمية). ` 
بالإضافة إلى ذلك فقد قام بيبر بعمل استطلاع للعلاقات النحوية 
الخاصة بالفعلين المتردافين "start" g begin‏ ففي معظم الحالات كان من 
الممكن لهذين الفعلين أن يتبادلا المواقع؛ مثل: 
"After the race started..."‏ 
"After the race began... "‏ 
ففي الحقيقةء إن هذين الفعلين متشابهان تماما في قدرتهما على تكوين 
علاقات نحوية؛ بمعنى أنهما متكافئان من حيث القدرة على الاقتران مع 
الكلمات الأخرى. فيمكن لكلا الفعلين أن يكون لهما صفة التعدي واللزوم في 
الوقت نفسه»ء على سبيل المثال: 
)1( نمط التعدي: اقتران الفعل مباشرة بمفعول به مُكون من تعبيرة 
اسمية؛ مثل: 
"Then they started/begun [leaving the quota system] "‏ 


(Y)‏ نمط الزوم: لا يقترن بمفعول به مباشر؛ مثل: 
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"1 had better issue a survival kit before we start/begin". 


ففي حالة التعدي» إما أن يكون المفعول المباشر تعبيرة اسمية» أو 


جملة فعلية مصدرية؛ مثل 'جملة فرعية to-‏ أو ila‏ حالية تحتوي "جملة 


Cus ting-‏ تأخذ JS‏ من start obegin‏ صيغتي التحول التاليتين: 


)1( في نمط التعدي تحتل الجملة الحالية التي تحتوي "ing"‏ مكان 


المفعول به بعد الفعل مباشرة. 

"They had started/begun[leaving|before I arrived". 

(Y)‏ في نمط التعدي تحتل الجملة الفعلية المصدرية "0" مكان المفعول 

به بعد الفعل مباشرة. وفيما يلي نعرض نتائج الدراسة الاستقرائية 
التي قام بها العالم بيبر (Biber)‏ على ذخيرة في مجالين لغويين 
مختلفين» الأول نصوص روائية Y)‏ مليون (iS‏ والثاني نصوص 

علمية Y)‏ مليون كلمة) وذلك للتعرف على حالات الارتباط النحوي 
لهذين الفعلين. وقد تم اجتزاء نصوص تلك الذخيرة بأكملها من 
ذخيرة لونجمان -لانكاستر Longman -Lancaster‏ 


جدول sii :)17- ٤(‏ نتيجة استقراء حالات الارتباط النحوي 


فرعية 








لفعلي "begin"‏ و "start"‏ فى اللغة الإنجليزية 










: التعدي‎ Ea 
إجمالي‎ ila +ing- | جملة‎ +to- 
فرعية فرعية‎ 





0 0 نصوص‎ 
06 0566 (%VY)\VA (%Y)A (%YY)e روائية‎ 


(%1014 | (ITTY | (WENA | WT esrar | VA 








Begin 





(1)0 | (HA)EE | (%Y+)os (evr)ee | (R.11 rr 
(%1.۰) (%۸ | (1°) | (YY | (1)۹۱ vagal 























Start 
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وقد أظهرت الدراسة التي تَمّت على تلك الذخيرة أن الفعلين قد ظهرا 
في جميع حالات الاقتران التي تم رصدها. إلا أنه قد تبين من المعلومات 
الإحصائية وجود طريقتين للاستخدام على درجة من الأهمية: 

begin" أكثر من مثيلاتها للفعل‎ "start" حالات اللزوم للفعل‎ )١( 

(Y)‏ يتجه “begin” Jail‏ إلى الاقتران مع المفعول به CS‏ من الجملة 

الفعلية المصدرية "الجملة الفرعية-60" أكثر من ‘start’ Jeil‏ 

وقد أظهرت نتيجة الإحصاء أن نسبة ۰ من حالات ظهور الفغعل 
"start‏ في النصوص الروائية كانت في الحالة Ld Ae DU‏ في النصوص 
العلمية فقد وصلت إلى WE‏ وعلى العكس من ذلك» كانت حالات ظهور 
للنصوص العلمية. 
معناه التعبير عن بداية مرحلة معينة؛ مثل: 
the soil formation process may start again in the fresh material".‏ ,.." 


"Blood loss started about the eighth day of infection..." 


“Tillering starts about a week or earlier after broadling". 

tile‏ ما يكون المسند في هذا النوع من الجمل الذي تمثله الأمثلة 

السابقة fies‏ عن تصنيف اسميء بالإضافة إلى أن. الفعل في مثل هذه الجمل 

يتبعه حال. ففي ذخيرة النصوص الروائية كانت أغلبية حالات المسند إليه 

تشير إلى إنسان أو جمادء وغالبًا ما يأتي بعد الفعل في تلك الجمل حال. على 
سييل المثال: 
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"As he started down the hill,he could see it... "‏ 
the train had started again... "‏ ..." 
ومن هناء نجد أن هناك حاجة إلى مزيد من الدراسات عن الحال الذي 
يظهر في الجمل التي تحتوي أحد تلك الأفعال اللازمة. كما أظهرت 
الإحصاءات أن "begin" Jeil‏ في الذخيرتين غالبًا ما يأتي في حالة التعدي 
وذلك مقارنة بالفعل arts‏ ففي النصوص الروائيةء كانت نسبة %۷۲ من 
حالات ظهور "begin" Jil‏ يقترن بها مفعول به عبارة عن صيغة المصدر 
المُكونة tO". cya‏ + جملة صغرى"؛ أما في النصوص العلميةء فقد وصلت 
نسبة تلك الحالة إلى AYE‏ وعند عقد مقارنة نجد أن نسبة اقتران Jill‏ 
“Start!‏ بمفعول به مكون من to”‏ + جملة صغرى" وصلت إلى 967١‏ (في 
النصوص الروائية) و %٠١‏ (في النصوص العلمية). 
ونظرًا إلى دقة التمييز الآلي للمفعول به to"‏ + جملة صغرى e"‏ فقد قام' 
العالم بيبر بعمل دراسة على مستوى أعلى عن هذا النمط من الاستخدام في 
ذخيرة من عشرة ملايين كلمة تم استخراجها من ذخيرة لونجمان لانكاستر 
.Longman-Lancaster‏ ويظهر الجدول ۸-٤‏ نتيجة تلك الدراسة. وقد 
أكدت الدراسة دقة النتائج السابقة بمعنى أن هناك ارتباطًا وثيقا بين ظهور 
álla‏ التعدي للفعل "begin"‏ وبين استخدام المفعول به المكون من ála + to”‏ 
صغرى ٠"‏ وعلى الأخص في النصوص الروائية؛ حيث وصلت النسبة إلسى 
LÍ ٠‏ الفعل "start"‏ فقد كانت حالات اقترانه مع أشكال التعدي الأخرى 
أكثر قوة. 
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جدول 8-4 نتيجة استقراء حالات الارتباط النحوي 


للفعلين start’ g "begin"‏ فى ذخيرة أكبر حجما 


he 
GAY التعدى‎ +to- 
( 















وقد أوضح (Biber) jay‏ من خلال دراسته الاستقرائية على تلك 
الذخيرة اللغوية أنه على الرغم من إمكانية القول بوجود تشابه كامل بين 
الفعلين ‘start’ “begin”‏ من حيث المعنى وأنماط التصاحب النحويء فإن 
كلا منهما قد أظهر اختلافا عند الاستخدام الواقعي مع اختلاف المجال 
اللغوي. وهذا يوضح أنه لا يمكن الاعتماد على الحس اللغوي لدى الإنسسان 
في القطع (أو التوجيه) فيما يتعلق بأنماط الاستخدام؛ وأن الإنسان (يما في 
ذلك المتحدثين الأصليين للغة) لا يمكنه التنبؤ بوجود أنماط الاستخدام ذات 
الطبيعة المنظومية بصورة صحيحة»ء وأن أقصى ما يمكن التنبؤ به هو تحديد 
أي مجموعة من الأفعال ترتبط بأي نمط من أنماط الاقتران اللغوي. وعلى 
العكس من ذلك فقد أظهرت الدراسة الاستقرائية على الذخيرة أن الكلمات 
التي يبدو عليها من النظرة السطحية أنها مترادفةء إذا نظرنا إليها من ناحية 
أنماط الاقتران في أثناء الاستخدام اللغوي» فمن النادر التوصل إلى تطابق 
كامل بينها. 
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الفصل السادس 
الدراسات المتعلقة بتنوع المستوى اللغوي 
(register variation)‏ 


يتم تحديد المستويات اللغوية وفقا لظروف الاستخدام؛ مثل الغرض من 
الكلام» والمضمونء ومكان الاستخدام» والقدرة التواصليةء والأسلوب 
المستخدم. فبالنسبة إلى أي متحدث باللغة هناك أهمية قصوى لعملية استيعاب 
(أو القدرة على استخدام) المستويات اللغوية المختلفة. ولا نكون مبالغين إذا 
قلنا: إنه لا يوجد شخص يمكنه الاكتفاء باستخدام مستوى لغوي واحد؛ بمعنى 
أن الناس في أثناء اليوم الواحد قد يستخدمون اللغة نفسها في التحدث أو 
الكتابة بأساليب متنوعة تنتمي إلى مستويات لغوية مختلفة. ومن هنا فإن 
الشخص يحتاج إلى التمتع بالقدرة على الاختيار السليم (أو التحول) بين 
المستويات اللغوية المختلفة. ففي جميع مراحل اكتساب اللغة التي يمر بها 
الإنسان» تكون هناك أهمية قصوى لعملية اكتساب الخصائص اللغوية لكل 
مستوى من مستويات الاستخدام اللغوي. 

فسواء كان الغرض من ذلك هو فهم مراحل اكتساب اللغفة في 
مستوياتها المختلفة» أو كان ذلك بغرض التوصل إلى وسائل Aled‏ يستخدمها 
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مدرسو اللغات في تعليم اللغة باستخدام أسلوب المستويات اللغويةء فإن كل 
هذا يتطلب في البداية التغلب على مشكلات وصف الخصائص اللغوية 
لمستويات الاستخدام المختلفة للغة» بغرض التوصل إلى التمييز الصحيح لتلك 
المستويات. وعلى الرغم من أن الباحثين قد انتبهوا مبكرًا إلى أهمية هذا 
النوع من الوصف اللغويء فإن الواقع يؤكد أن هذا الهدف لا يمكن الوصول 
إليه إلا عند الاستعانة بمنهجيات الذخائر اللغوية في البحث اللغوي. ويرجع 
ذلك إلى أن التعمق في دراسة المستويات اللغوية المختلفة يحتاج إلى توافر 
العناصر الثلاثة التالية: 

)01( الاعتماد على كمية هائلة من النصوص كمواد أساسية للدراسة. 

(Y)‏ التطرق إلى عدد كبير من الخصائص اللغوية. 

(؟) عمل مقارنات كمية بين المستويات اللغوية المختلفة. 

ومن الواضح أن جميع هذه العناصر تحتاج دائمًا إلى ذخائر لغوية 
كبيرة الحجم» بالإضافة إلى الحاجة إلى استخدام تقنيات التحليل المختلفة 
المتعلقة بهذه المهام. ففي البداية» يكون جمع عدد كبير من النصوص هو 
حجر الأساس لمثل هذه الدراسات؛ وذلك GY‏ النتائج البحثية التي يتم التوصل 
إليها مع نضوص ALM‏ تكون غير دقيقة بالقدر اللازم. 

هذا بالإضافة إلى أن دراسة المستويات اللغوية التي تعتمد على أسلوب 
المقارنة لا يمكن أن تقدم وصفا متعمقًا لتلك المستويات اعتمادًا على عدد قليل 
من الخصائص اللغوية. وعلى هذا الأساس Lal‏ لا يمكن أن نقدم وصفا 
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تلخيصيًا دقيقًا للخصائص اللغوية المتعلقة بكل مستوى. وفي الحقيقية:؛ لا 
يمكننا الاعتماد على خاصية لغوية بارزة في تمييز سمات مستوى لغوي 
٠‏ معين إلا إذا كان الأمر متعلقا باقتصار ظهور هذه الظاهرة في هذا المستوى 
Liga‏ عن غيره. وقد أثبت الواقع اللغوي أن العديد من المستويات اللغوية 
تتمتع بمجموعة من الخصائص اللغوية المشتركة فيما بينها؛ مثل معدلات 
ظهور الأسماءء والضمائرء والأقعال» والصفات» وما إلى ذلك. ولا يمكن 
التمييز بين هذه المستويات إلا من خلال مقارنة القيم التنفصيلية لمعدلات 
ظهور هذه الخصائص في مستوى معين مقارنة بباقي المستويات. وبعبارة 
أخرىء» فإن الخصائص اللغوية المحورية التي تظهرها الفروق المنظومية في 
أثناء الاستخدام اللغوي من شأنها أن تقدم أدلة يمكن الاعتماد عليها في التمييز 
بين المستويات اللغوية المختلفة. . 

وفي النهايةء Ge BY‏ الإقرار أن الدراسات القائمة على تحليل 
المستويات اللغوية تتطلب الاعتماد على أحد أساليب المنهج التقابلي؛ بمعنى 
أنها تحتاج إلى نقطة انطلاق (baseline)‏ لعمل المقابلة» حتى يمكن الحكم 
على عدد مرات ظهور خاصية (أو مجموعة من الخصائص) في أحد 
المستويات اللغوية. فعلى سبيل المثال» أظهرت دراسة استقرائية قام بها العالم 
بيبر (Biber)‏ أن الجملة الموصولة تظهر في النصوص الإنجليزية بمعدل 
5 مرة كل ألف كلمةء الأمر الذي اعتبر معه أن ذلك أعلى معدل تواتر؛ 
GY‏ متوسط ظهور هذا النوع من الجمل يتراوح بين ٠١-١‏ مرات كل ألف 
كلمة» ويتحدد عدد مرات الظهور التفصيلي وفقا للمستوى اللغوي. وعلى 
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العكس من ذلكء إذا وجدنا أن الأسماء تظهر بمعدل ٠٠١‏ مرة كل ألف كلمة 
في نوع معين من النصوصء وكان معدل ظهور الأسماء هو VO‏ مرة لكل 
١‏ ألف كلمة» فإن ذلك يُعتبر حالة نادرة. 


وفيما يلي.نقدم تعريفا للدراسة التي قام بها العالم بيبر (Biber)‏ للتعرف 
على مقدار الاختلاف بين المستوى الشفهي والتحريري للغة[91]. ليس فقط 
OY‏ دراسة الفروق بين كل من المستوى التحريري والشفهي في اللغة من 
الموضوعات الساخنة دائمًا؛ التي يهتم بها العلماء في كل لغة» بل لأن تلك 
الدراسة ستتيح لنا فرصة التعرف على مجموعة الخصائص اللغوية التي 
استعان بها بيبر (Biber)‏ للتمييز بين هذين المستويين اللغويين» بالإضافة إلى 
التعرف علسى منهجية التحايل متعدد الاتجاهات dimensional)‏ 
(multi-analysis‏ التي ابتكرها بيبر (Biber)‏ واستخدمها لأول مرة. 

في أثناء عمل دراسة تقابلية واسعة النطاق بين كل من المستوى 
التحريري والشفهي للغة» يكون أصعب ما في الأمر تحديد ie gapo‏ 
الخصائص اللغوية التي سيتم على أساسها عقد المقارنة. فعلى سبيل المثال» 
عن طريق الاستقراء يمكننا التوصل إلى أن هناك فرقا كبيرًا بين عدد مرات 
ظهور الجملة الموصولة في كل من النصوص العلمية والنصوص الحوارية 
في اللغة الإنجليزية. وعلى العكس من ذلك؛ فإن استخدام صيغة Jail‏ 
الماضي في هذين المجالين قليلة: ظهرت صيغة الفعل الماضي في النصوص : 
العلمية بمعدل YY‏ مرة كل ألف كلمة» وفي gagail‏ الحوارية ظهرت Yo‏ 
مرة. أما في النصوص a mE SL‏ 
كل ألف كلمة. 


36 


ووفقا لهذا السبب» فإنه من غير الممكن الاعتماد على التوزيع النسبي 
لخاصية لغوية معينة في التمييز بين المستويات اللغوية المختلفة. ففي' 
الحقيقة» أن الخصائص اللغوية التي يمكن التطرق إليها كثيرة جدّاء فضلاً عن 
ضعوبة التكهن بأي منها يلعب دور مهما في عملية تحديد خصائص 
المستويات اللغوية موضع الدراسة. وفي الحقيقة أن الدراسات العلمية 
أظهرت أن الخصائص التي تظهر السمات اللغوية للنصوص الحوارية 
تشمل: الجمل المتقطعة (fragmented)‏ والتركيب المزجي <(contraction)‏ 
وضمير المخاطب (you)‏ والجمل الاعتراضية. «(know you)‏ والأفعال غير 
المتصرفة «(be able to: need tor have to)‏ بالإضافة إلى الجملة الفرعية 
التي تحتوي المكمل Wh—‏ وما إلى ذلك. وعلى العكس من ذلكء؛ نجد أن 
الخصائص التي تظهر السمات اللغوية للنصوص العلمية تشمل: Gly‏ معينة 
من الكلمات ah‏ بصورة مكثفة داخل تلك النصوص؛ مثشل الأسماء 
والصفات النعتية» وأسماء الأشياء» وغير ذلك من الكلمات ذات الطابع 
الخاص» بالإضافة إلى صيغ المبني للمجهول من الأفعال والأبنية ذات 
الطبيعة الخاصة» «(it is possible that) fie‏ وما إلى ذلك. 

وعلى الرغم من أن علماء اللغة قد اتفقوا على أن هناك hie‏ من 
الأنماط اللغوية تظهر معا في be‏ فإنه من الصعب 
التوصل إلى إحصاء كمي لعدد مرات ظهور هذه الأنماط اللغوية. وفي الحقيقة 
أن تمييز مجموعات الخصائص اللغوية التي تتصاحب معا في المستويات 
اللغوية المختلفة لا يمكن أن يتحقق بشكل واقعي إلا من خلال استخدام 
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منهجيات الذخائر اللغوية. وقد أثبتت منهجية التحليل متعدد الاتجاهات التي 
طرحها العالم بيبر في ثمانينيات القرن العشرين قد أثبتت أن منهجية الذخائر 
اللغوية هي الأساس الذي يمكن من خلاله الانطلاق لحل هذه المشكلة. 

إن الأساس الذي ينطلق منه التحليل متعندد الاتجاهات لوصف 
الاختلافات بين المستويات اللغوية المختلفة يعتمد على ذخيرة شفهية وأخرى 
تحريرية تضم عينات تغطي نطاقا واسعًا لكل مستوى لغوي» ومن 
الضروري أن As‏ تلك الذخيرة بصورة ALAS‏ عن الأنماط اللغوية الأساسية 
التي تتصاحب معا في إحدى اللغات (مثل اللغة الإنجليزية على سبيل 
المثال). وقد استعان التحليل متعدد الاتجاهات الذي أجري على اللغة 
الإنجليزية في ثمانينيات القرن الماضي بذخيرة dle‏ تتكون من عدد ٤۸١‏ 
Éa‏ يحتوي 450٠0٠‏ كلمة. من بينها عدد "4٠‏ نصنًا تم اختيارها من ذخيرة 
لوب؛ بحيث غطت تلك النصوص إلى حد كبير النصوص التحريرية من 
الذخيرة» مثل النصوص العلمية» وافتتاحيات الصحف» والروايات وما إلى 
ذلك؛ أما النصوص الباقية؛ التي وصل عددها ٠٤١‏ نصنًا فقد بم اختيارها من 
ذخيرة لندن- لوند (London—Lund)‏ الشفهية» وتضم الحوارات المباشرةء 
والمحاضرات العلنيةء ونصوص الخطب الشفهية» وما إلى ذلك. 

إن أول خطوة من خطوات التحليل متعدد الاتجامات هي تحديد 
مجموعة الخصائص اللغوية التي سيتم دراستها. والغرض من هذه الخطوة 
هو تجميع الخصائص اللغوية على نطاق واسع؛ حيث يمكن من خلال تلك 
الخصائص اللغوية تقديم شرح يوضح الوظائف اللغوية لتلك النصوص. وقد 
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قدم بيبر قائمة بعدد TY‏ خاصية لغوية من خلال التحليل متعدد الاتجامات 
للغة الإنجليزية» ويمكن ضمها في ستة عشر نموذجًا نحويًا: 

)1( علامة الزمن والحالة. 

' الحال المعبر عن المكان والزمان.‎ (Y) 

(pron-verb) الضمير المعبر عن الاسم؛ والضمير المعبر عن الفعل‎ (Y) 

)£( الاستفهام. | 

)0( الصيغ الاسمية. 

)1( المبنى للمجهول. 

(V)‏ صيغة الحالة. 

(A)‏ خصائص الإضافة. 

)4( تعبيرات الجار والمجرورء والصفات» والظروف. 

)٠١(‏ المفردات الخاصة. 

)١١(‏ الأنواع النحوية للمفردات. 

)1١(‏ الأفعال المتصرفة. 

' الأفعال التي لها سمات خاصة.‎ (Y) 

)£ 1( التراكيب المختصرة؛ التي AG‏ استخدامها. 

(15) العطف. 

)13( النفي. 
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والخطوة التالية التي اتبعها بيبر هي تصميم برمجية حاسوبية لتمييز 
كل خاصية لغوية Jala‏ النص وإحصائها. مع مراعاة أن هناك عددا من 
الخواص المركبة تحتاج إلى أسلوب تمييز يعتمد على التكامل بين الآلة 
والإنسان. هذا إلى جائب أن جميع الخصائص التي تتوصل الآلة إلى تمييزها 
يتم مراجعتها ومطابقتها من خلال التدخل البشري؛ وذلك لضمان دقة التمييز. 

تشع مما ست أن كبية ت Ro Ae Sgt‏ 
خلال عمليات الاستقراء التي تمت على الذخيرة الإنجليزية كبيرة بصورة 
تلفت النظر. فالذخيرة A So‏ من عدد 44١‏ نصاء وكل نص من شانه أن 
. يُخرج نتائج إحصائية عن معدلات تكرار W‏ خاصية لغوية. وحتى يمكن 
التوصل إلى مجموعة الخصائص اللغوية التي تشترك في الظهور داخل 
نص» اعتمد بيبر على أسلوب إحصائي أطلق عليه اسم تحليل العوامل" 
.(analysis factor)‏ وهو تقنية إحصائية تعتمد على العلاقات التبادلية 
(correlational)‏ الغرض منها تمييز مجموعة المتغيرات المتشابهة من حيث 
نسب التوزيع داخل النص. أي أن أسلوب تحليل العوامل يعني التوصل إلى 
مجموعة الخصائص اللغوية التي تتجه GY‏ تتصاحب Ga‏ داخل النص. 

وقد أطلق بيبر لفظ "مؤشر" على مجموعة الخصائص التي تشترك في 
الظهور معا؛ التي تعبر عن تغير مجال النص. على سبيل المثال» قد تكون 
مجموعة الخصائص المشتركة مُكوّنة من ضمير المتكلم» وضمير المخاطب» 
. وأدوات الاستفهام التي تيدأ ب twh-‏ وقد تكون مجموعة خصائص أخرى 
مكونة من celal‏ وتعبيرات الجار والمجرورء والصفات النعتية وما إلى 
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ذلك. ومن خلال الخصائص اللغوية التي يتم الحصول عليها من أسلوب 
تحليل العوامل يمكن التعبير عن توزيع مجموعة الحقائق اللغوية المرتبطة 
JS‏ خاصية في كل نوع من أنواع النصوص. على سبيل «Stall‏ عندما يضم 
نص معين كمية كبيرة من الأسماء» فمن المعروف أن هذا الوضع يصاحبه 
ظهور كمية كبيرة من تعبيرات الجار والمجرور والتعبيرات الوصفية» وعلى. 
العكس من ذلك إذا كانت الأسماء في نص معين قليلة العددء فإن ذلك سيؤدي 
إلى قلة ظهور تعبيرات الجار والمجرور والتعبيرات الوصفية. 


ونظر! إلى أن تلانّم ظهور الخصائص اللغوية يعكس السمات 
المشتركة بين النصوص التي تنتمي إلى حقل لغوي واحدء فإنه بعد اكتشاف 
الخصائص اللغوية التي SS‏ 'مؤشر” الحقل اللغوي» يمكننا تقديم شرح 
للوظيفة اللغوية التي يمثلها هذا المؤشر؛ وذلك من خلال عناصر ثلاثة هي 
المشهد الذي يعبر عنه النص» ووظيفة النص من الناحية الاجتماعية 
والمعرفية. على سبيل المثال» ظهور ضمير المتكلم وضمير المخاطب وجمل 
الاستفهام المباشر والأمر بصورة كبيرة داخل النصوص الحوارية من شأنه 
أن يقدم شرحًا لخاصية التواصل التي يتسم بها هذا:النوع من النصوص؛ 
وذلك لأن استخدام جمل الاستفهام المباشر وجمل الأمر تتطلب وجود شخص 
مستمع مطلوب منه التجاوب مع المتحدث؛ أما ضميري المتكلم والمخاطب 
فيشير كل Lagia‏ إلى المتحدث والمستمع على التوالي. وعلى المنوال نفسهء 
فإن أسلوب القصر وبدايات الحديث الخاطئة (false starts)‏ والكلمات 
الحقيقية المشيرة إلى أشياء عامة (مثل (thing‏ جميعها لها علاقة بالعوامل 
التي 4 الحوار وقت وقوعه. 


391 


وقد تمكن بيبر من خلال التحليل متعدد الاتجاهات الذي أجراه على 


ذخيرتين شفهية وتحريرية للغة الإنجليزية من تمييز خمسة مؤشرات 
للتحول النصي. . 


وفيما يلي نورد مجموعة الخصائص اللغوية التي تتلازم مع المؤشر 
الأول؛ حيث إن كل مؤشر يتكون من خاصيتين لغويتين تتلازمان معا في 
الظهور؛ بمعنى أن ظهور إحدى هاتين الخاصيتين بكثافة داخل النص 
يستدعي ظهور الخاصية الأخرى بوضوح» والعكس ص حيح. وهاتان 
الخاصيتان المتكاملتان يمكن الإشارة إليهما ب "الأصل"” و"الفرع. ففي 
المؤشر الأول نجد أن مجموعة الخصائص اللغوية الأصل هي: وجود أفعال 
الشعور feel", think" fis‏ وخذفت كلمة “that‏ من الجمل الفرعيةء 
والقصرء وصيغة الفعل المضارع» وضمير المخاطب. أما مجموعة 
الخصائص الفرعية فتشمل: وجود الأسماءء والكلمات الطويلة»ء وتعبيرات 
الجار والمجرورء وصيغة المقارنةء والصنفات النعتية. 









[ce th 
eet al peel ا ]يرت لطر‎ el 
| |..4ه-‎ auwe) 7.0. | الفعل في صيغة لمضارع_‎ 


الأفعال المعبرة عن الإمكانية 


الجملة القرعية why‏ 







حروف الجر التي تقع في آخر 
الجملة 
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وأمام US‏ خاصية نلاحظ وجود رقم» هذا الرقم يعبر عن وزن 
(loading)‏ هذه الخاصية بالنسبة إلى المؤشر الأول؛ وهو رقم يشير إلى قوة 
الارتباط (strength of the relationship)‏ بين المؤشر الأول ووجود هذه 
الخاصية. ومن هذاء يمكننا أن نلاحظ درجة تمثيل (representative)‏ هذه 
الخاصية اللغوية في هذا المؤشر. ويتراوح وزن الخاصية من ١‏ إلى .١-‏ 
فكلما كبرت القيمة المطلقة للوزن ارتفعت قيمة تمثيله Jala‏ المؤشرء وعندما 
تصل قيمة الوزن إلى رقم واحد صحيح فإن هذا يعني الارتباط الكامل. ويبدو 
من الجدول أن أول خاصية في: المؤشر الأول هي ارتباط ظهور أفعال 
الشعور مع الأسماء (حيث كان وزن كل منهما ٠,٩١‏ و-٠۸,٠‏ على 
التوالي)» وهذا يمثل أقوى ارتباط داخل نطاق هذا المؤشر. وبالمقارنة نجد 
أن الأفعال المعبرة عن الإمكانية )+60( AS‏ ارتباطًا مع الصفات النعتية 
(tv-)‏ | 

فكل خاصية لغوية لها وزنها الممثل لها داخل المؤشر. ونظر! إلى أن 
الخصائص التي تتمتع بأوزان عالية هي تلك الخصائص التي تعبر عن 
المؤشر. بصورة أكبر من غيرها من الخصائصء لذلك فإن هذا الأمر Saab‏ 
عليه كثيرًا في وضع تفسير لوظائف المستوى اللغوي الذي يعبر عنه ذلك 
المؤشر. فغالبًا عندما تزيد القيمة المطلقة لخاصية من الخواص عن ٠,٠١‏ 
فإن هذه الخاصية يمكنها أن ينظر إليها بعين الاعتبار في عملية التفسير. 

وعلى أساس قيمة وزن الخاصية يمكن عمل إحصاء كمي للخصائص 
التي تزيد قيمتها المطلقة عن ٠,٠١‏ حتى يمكن حساب القيمة التي يحصل 
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عليها هذا النص في أحد المؤشرات؛ وهذا ما يطلق عليه اختصارا درجة 

المؤشر .(dimention score)‏ وعلى مستوى أعلى» يمكن عمل إحصاء كمي 

لإجمالي النصوص التي يتكون منها مستوى معين داخل الذخيرة بأكملهاء 

ومن هذا الإحصاء يمكننا التوصل إلى المتوسط الحسابي لقيم المؤشر في كل | 
مستوى لغوي. وعلى هذا الأساس يمكننا وصف الخصائص اللغوية لأي حقل 
من حقول alll‏ الأمر الذي يمكن معه عقد مقارنة بين أي مستويين لغويين» 
بالإضافة إلى عمل تحليل كامل لوظائف كل مؤشر. 
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الباب الخامس 
تطبيقات منهجية الذخائر اللغوية 
في عدم اللغة الحاسوبي 
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لم يكن على سبيل الصدفة الظهور المفاجئ والسريع لمنهجية الذخائر 
اللغوية ونماذج التحليل الإحصائي للظواهر اللغوية وتحولهما لتيار أساسي لا 
يستغنى عنه في مجال الدراسات المتعلقة بمعالجة اللغات الطبيعية (NLP)‏ 
وعلم اللغة الحاسوبي اللذين ظهرا مع تسعينيات القرن العشرين. ونحن على 
ثقة كاملة أن القارئ سوف يلمّس من الأمثلة التي سوف نسوقها في 
الصفحات التالية مدى Ko‏ هذه المنهجية. 
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الفصل الأول 
الدراسات المتعلقة بإزالة اللبس 
في نمييز حدود الكلمات داخل النصوص الصينية 


يعتبر اللبس في وضع حدود للكلمات الصينية والكلمات التي لم يتم 
تسجيلها أهم إشكاليتين تؤثران في مستوى دقة نتائج برمجيات التمييز الآلي 
لحدود الكلمات الصينية. وبصورة عامة» يمكننا تقسيم إشكاليات اللبس في 
تمييز حدود الكلمات الصينية إلى إشكاليتين فرعيتين: الأولى هي مشكلة 
اللبس بسبب التداخل في عملية تقسيم سلاسل الرموز؛ والثانية مشكلة اللبس 
بسبب التعدد الدلالي لبعض الرموز الصينية. وعند التطبيق الواقعي لعملية 
تمييز حدود الكلمات الصينية نجد أن غالبية حالات اللبس ترجع إلى اللبس 
الناتج عن التداخل في عملية تقسيم سلاسل الرموز. طبقا لتقرير التقييم الذي 
تم على برمجية التمييز الآلي الجزئي لحدود الكلمات الصينية الذي تم 
تصميمه عام ١145‏ في إطار المشروع الصيني القومي رقم ۸٦۳‏ لإنشاء 
الحواسيب PTI‏ فإن دقة تمييز الكلمات الصينية باتباع منهجية إزالة 
اللبس الناتج عن التداخل في التمييز قد وصلت إلى HVA‏ أما درجة الدقة 
في تمييز اللبس الناتج عن التوليد فقد وصلت إلى Wo‏ وتشير تلك الأرقام إلى 
أن الدراسات المتعلقة بمشكلة تمييز اللبس في أثناء.عمليات تمييز حدود الكلمات 
الصينية ستظل المحور. الرئيس في حقل معالجة المعلومات باللغة الصينية. 
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وفيما يلي نعرض الدراسات المتعلقة بتمييز حدود الكلمات من خلال 
إزالة اللبس الناتج عن التداخل في التمييزء التي تمت في كل من جامعة شان 
شي وجامعة تشين خوا على ذخيرة واسعة النطاق. وحتى يمكننا التعريف 
بتلك الدراسات» فمن الضروري البدء بشرح بعض المصطلحات الأساسية 
المتعلقة بهذا المجال في اللغة الصينيةء ولمزيد من المعلومات عن تعريف 
تلك المصطلحات» انظر المرجع رقر""'. 

سلسلة الكلمات التي تحتاج إلى فصل تداخل الحدود بين عناصرها 
يُطلق عليها اختصارًا اسم (سلسلة متداخلة): على فرض أن لدينا سلسلة 
كلامية مُكُونّة من الكلمات Cg By cA‏ وأن IS‏ من تلك الكلمات يتكون من 
رمز أو عدة رموز. فإذا كانت الكلمات Cy (BC 5 (AB 5 tA‏ جميعها من 
الكلمات الموجودة في قائمة الكلمات الصينية المتعارف عليهاء فإن السلسلة 
الكلامية ABC‏ يُطلق عليها اسم سلسلة كلامية تحتاج إلى إزالة اللسبس من 
خلال فصل تداخل الحدود. وبطبيعة الأحوال فإن هذا النوع من السلاسل , 
المتداخلة يحتوي حالات أكثر تعقيدًا من ذلك المثالء كما يلي: إذا كانت عملية 
تمييز حدود الكلمات تعتمد فقط على قائمة الكلمات المتعارف عليها في اللغة 
الصينية ولا يتداخل معها إشكاليات أخرى كالإشكاليات النحوية والدلالية» فإن 
نتيجة التمييز ستكون مناسبة سواء كان تقطيع الرسالة الكلامية إلى 6/85 أو 
كان .BCIA‏ على سبيل المثال سلسلة الرموز "1783" يمكن تقطيعها إلى 
应 用 /于 "‏ " يستخدم في..."» وكذلك يمكن التقطيع إلى WAF‏ 'ينبغي أن 
يُستخدم في..."؛ والسلسلة " "可 以 为‏ يمكن تقطيعها إلى " "可 以 /为‏ 'يمكن من 
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أجل..."٠‏ وإلى "以 为 可‏ "إلا أنه يعتقد أن...'. ولذلك نطلق على ' (应 用 于‏ 
أو "ATLL"‏ اسم سلسلة متداخلة. 

العناصر المتداخلة: الكلمات التي تتداخل في التمييز داخل السلسلة 
الكلامية Gh}‏ عليها اسم عناصر متداخلة. على سبيل المثالء الكلمتان 
"7# و "۴" في السلسلة WF"‏ يطلق عليهما عنصران متداخلان. 

طول سلسلة التداخل: عدد العناصر المتداخلة داخل السلسلة الكلامية 
يُطلق عليه طول سلسلة التداخل. وعلى ذلك» فإن طول سلسلة التداخل في 
كل من السلسلتين الكلاميتين 可 以 为 "5 CMA”‏ " هو اثنان. ويتضح من ' 
ذلك أن طول سلسلة التداخل ينبغي أن يحتوي عنصرين متداخلين على JÄ‏ 
قرت و اة لخر فان فل قر هكن Ce i ey ae BP RG‏ 
متداخلة هو عنصران فة فقط. وبالمنطق نفسه»ء فإن أية سلسلة متداخلة لا يمكن 
أن يقل العدد الكلي للرموز الصينية ÉEN‏ لها عن ثلاثة عناصر. 

محور التداخل: الجزء الذي يتكرر في الكلمتين اللتين Ghat‏ من عملية . 
التمييز Gii‏ عليه اسم محود التداخل. وعدد الرموز BE‏ لهذا الجزء 
Gib‏ عليه طول محور التداخل. فمحور التداخل في السلسلة " "应 用 于‏ هو 
用‏ وطول هذا المحور رمز واحد. 

السلسلة ذات الطول الأكبر في التداخل: على فرض أن 5 سلسلة 
كلامية معينة» وفي داخل هذه السلسلة يوجد سلسلة فرعية عبارة عن سلسلة 


متداخلة هي )5 فإذا كانت YS‏ تحتوي عنصرا يتداخل مع Si‏ فإن St‏ 
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يُطلق عليها اسم السلسلة ذات الطول الأكبر في التداخل. والمثال التالي عبارة 
عن سلسلة متداخلة أكثر تعقيدًا: 


大 部 分 手工 业 品 


هذه السلسلة تحتوي ثلاثة عناصر متداخلة: العنفصر الأول هو 
kL "大 部 分 ，‏ والثاني " 分 手‏ 'مستقل", والثالث FILA a‏ 
'منتجات يدوية الصنع". فمحور العنصرين المتداخلين الأولين هو الرمز 
"۶" أما محور العنصرين الآخرين فهو الرمز F‏ وطول محور التداخل 
هو رمز واحد» وطول سلسلة التداخل هو ثلاثة رموز صينية. والجدير 
بالملاحظة أن الكلمتين " 手 工业‏ ' 'صناعة يدوية"؛ 5 "ale giani TMB"‏ 
في هذه السلسلة كلمتان متداخلتان. ولكن نظرًا إلى كون هاتين الكلمتين 
متضمّنتين في إطار كلمة أكبر هي كلمة " "手工 业 品‏ 'مصنوعات يدوية“ 
فإن كلا من 手 工业‏ ' 'صناعة يدوية g‏ اا1" امصنوعات"' لا يمكن 
اعتبارهما عناصر متداخلة. 

والهدف من تمييز أكبر طول لسلسلة التداخل هو وضع حدود فاصلة 
لهذا النوع من السلاسل؛ حيث إن السلسلة ذات الطول الأكبر لا يمكن لها أن 
تحتوي عناصر تداخل مع أية سلسلة رموز في الفراغ النصي المحيط بها. 
وهذا الوضع WSS‏ من اجتزاء هذه السلسلة الكلامية ومعالجتها بصورة 
منفردة. ففي الجملة التالية على سبيل المثال: 
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"经 济 法 有 普遍 的 强大 约束 力 " 

"القوانين الاقتصادية تفرض قيودا كبيرة على نطاق واسع'؛ فنجد أن 
"强大 约 "‏ 'تقريب بصورة كبيرة"» "强大 约束 力 和‏ قيود كبيرة" سلسلتان 
متداخلتان» إلا أن الأولى مُتضمّنة في الثانية. ولذلك فإن السلسلة "BRAG‏ 
ليست هي السلسلة ذات الطول الأكبر في هذا المثال. ولا يبقى في هذا المثال 
إلا السلسلة "382493452" وهي التي لا تدخل في إطار سلسلة أخرى داخل © 
هذا المثال» وهي تعتبر بذلك السلسلة ذات الطول الأكبر في المثال. 

وفي أثناء استخراج السلاسل المتداخلة أو السلاسل ذات الطول الأكبر 
في التداخل من الذخائر اللغوية يتم استخدام المعادلتين الإحصائيتين 'نسبة 
الشكل” (معدل التكرار الثابت)ء و"النسبة العددية" (معدل التكرار المتغير) 
على التوالي وتعريف هاتين المعادلتين كما يلي: 

النسبة Roe at‏ هي النسبة المئوية لعدد مرات تكرار نوع معين: 
من أنواع السلاسل ذات الطول الأكبر في التداخل بالنسبة إلى العدد الكلي 
لمرات تكرار جميع الأنواع؛ وتحسب بالمعادلة التالية: 
النسبة النوعية عدد مرات تكرار نوع من أنواع السلاسل 

= (%) 


ذات الطول الأكبر في التداخل 
العدد الإجمالي لأنواع السلاسل ذات الطول 
الأكبر فى التداخل 





(معادلة 1-9( 
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النسبة العددية: هي النسبة المئوية لعدد مرات ظهور نوع معين من 
أنواع السلاسل ذات الطول الأكبر في التداخل داخل الذخيرة بالنسبة إلى 
العدد الكلي لمرات ظهور جميع أنواع السلاسل ذات الطول الأكبر في 
التداخل. Ciudad,‏ بالمعادلة التالية: 


عدد مرات ظهور نوع من أنواع السلاسل ذات الطول 
| النسبة العددية )%( = الأكبر في التداخل %1.۰ 


العدد الكلي لمرات ظهور جميع أنواع السلاسل ذات الطول 





أولاً: دراسة جامعة شان شي 

قام كل من العالمّين جنغ جيا خنغ» وليو كاي يينغ من جامعة شان شي 
الصينية بعمل دراسة مسحية عن سلاسل الرموز المتداخلة في ذخيرة لغوية 
LS‏ من مليون وثمانمائة ألف كلمةء ولكنهما لم يُمَيْرَا في دراستهما بين 
السلاسل المتداخلة والسلاسل ذات الطول الأكبر في OU fatal‏ كما أنهما' 
Lids‏ تعريفا مختلفا لطول سلسلة التداخلء ولتسهيل عملية الشرح سوف نعتمد 
على مجموعة المصطلحات التي سبق ذكرها وتعريفها في عرض نتيجة 
درا | 
ومن خلال الدراسة المسحية التي تمت على الذخيرة اللغوية نجح جنغ 
جيا خنغ» وليو كاي يينغ في استخراج 16٠٠ are‏ حالة لسلاسل رموز 


متداخلةء وقاما ببناء بنك لهذا g sill‏ من سلاسل الرموز. وعلى أساس ما هو 
متعارف عليه في المعاجم الصينية أو نتائج الإحصاءات التي تمت على 
ذخائر لغوية من أن حوالي %۷٠0‏ من الكلمات الصينية تتكون من رمزين: 
فقد تم التركيز على أن تنحصر وحدة تقطيع السلاسل الرمزية فبي رمزين 
فقط. وقد ورد في تقريرهما أنه باعتبار كل رمزين lee‏ لتمييز الكلمات» 
فقد تم استخراج عدد ۸۳۷۸ سلسلة متداخلة من بين ال 10٠0٠‏ حالة لسلاسل 
الرموز المتداخلة» أي (9684,7). ويوضح الجدول ١-5‏ نتيجة التوزيع 
الإحصائي دأخل هذا العدد من السلاسل وفقا لطول سلسلة التداخل. 

جدول )1-0( النتيجة الإحصائية لسلاسل: الرموز المتداخلة La‏ 
لطول سلسلة التداخل 
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من خلال البيانات الإحصائية السابقة» يمكننا ملاحظة أن مجموع عدد 
السلاسل التي لها طول تداخل وحدتين وثلاث وحدات بلغ نسبة %۹٦,١‏ من 
العدد الإجمالي لسلاسل التداخل» وأن aac‏ مرات ظهور هذين النوعين يصل 
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إلى 969377. ومن هناء إذا تم التوصل إلى حل مشكلة تمييز السلاسل التي 
يصل طول تداخلها إلى وحدتين أو ثلاث وحدات» فإن ذلك من شأنه أن يرفع 
من نسبة الدقة في عمليات تمييز حدود الكلمات الصينية بصفة عامة. كما قام 
كل من جنغ وليو بعمل دراسة ali‏ عن نتائج تمييز حدود الكلمات الصينية 
باعتبار الأطوال المختلفة لسلاسل التداخل؛ Eby‏ استراتيجيات التمييز الآلي 
القائمة على هذه الأنواع. إلا أن التقرير العلمي لدراستهما ما زال منحصرا في 
إزالة التداخل القائم على اعتبار كل رمزين oles‏ لتمييز الكلمات. 
)1( انحصرت نتائج تمييز السلسلة ABC‏ باعتبار طول سلسلة التداخل 
وحدتين في أربع حالات كما يلي: 
أ- نتيجة التمييز هي ABC‏ كما في المثال "لح 4 8" الذي يتم تمييزه . 
إلى "HVE"‏ 'يُظهر نفسه". 13 
ب- نتيجة التمييز هي 48/0 كما في المشال "出 现在‏ الذي يتم | 
تمييزه إلى EBR‏ 'يظهر في". 
ج- نتيجة التمييز هي ABC‏ كما في المثال "#78" 'أمسراض 


os‏ يا 


معدية . 


د- عدم الاستقرار على طريقة للتقطيع. 
ويوضح الجدول ۲-١‏ النتيجة الإحصائية التي تمت على ذخيرة 
للنصوص الإخبارية حجمها مليون وثمانمائة كلمة. 
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جدول (ه-؟): نتيجة تمييز السلاسل المتداخلة ABC‏ داخل الذخيرة 

































oe النسبة‎ ٠ ع‎ | | 

OO 
%41,۹ YioA | e,1 YYY， | ABC | 
ooYYY | 00.0 %14,۳ VAYY | AB/C | 
%10,4 | eé | hrs YY | ABC | 
% YY %1,1 yyy | J 

الإجمالي _ | 0٤‏ داو | كمه | \% | 

















ويتبين من نتيجة الإحصاء السابقة أن نسبة التمييز للسلاسل المتداخلة 
على النمطين AB/C 5 ABC‏ تصل إلى Wh,‏ وأن نسبة عدد مرات 
الظهور وصلت إلى WA‏ ومن بين هذه النسبة نجد أن تمييز نمط 
الاقتران ABIC‏ من خلال التصاحبات الأكبر في اتجاه القراءة من اليسار 
إلى اليمين) قد حقق نتائج تمييز صحيحة؛ وعلى هذا فقد تركزت صعوبة 
التمييز عندما يكون طول سلسلة التداخل وحدتين في نمط السلاسل المتداخلة 
.A/BC‏ 
(Y)‏ عند تمييز سلسلة التداخل ABCD‏ باعتبار أن طول التداخل ثلاث 
وحدات» انحصرت نتائج التقطيع في النقاط التي يوضحها 
الجدول التالي: 
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جدول (ه-”): نتيجة تقطيع سلاسل التداخل باعتبار 
طول التداخل ثلاث وحدات 















































%1,٤ 
AAAY | 49 ABICD 

D 
SE NE 
%۰, o %۰,۲ 5 ABCD 
2% é 1۱ 9% F 11 daa غير‎ 
2007 YA % 3409 الإجمالي‎ | 





ويُظهر الجدول الإحصائي السابق أن La‏ التقطيع AB/CD‏ سواء على 
مستوى النسبة النوعية أو على مستوى النسبة العددية يحتل نسبة %۹۸ 
تقريبًا من بين أنماط التقطيع الأخرى» مثل سلسلة التداخل BAM‏ 
كانت نتيجة التقطيع الصحيحة لها هي "过 去 [已 经‏ بالفعل". لذلك» فقد 
اتجهت منهجية تقطيع سلاسل التداخل بطريقة ثلاثية إلى أن تكون نتيجة 
التقطيع على -AB/CD haill‏ 
(Y)‏ عند تمييز سلسلة التداخل ABCDE‏ باعتبار أن طول التداخل أربع 
وحدات» لوحظ أن صعوبة التقطيع تتركز في الرموز ADEM‏ 
الأولى. على سبيل المثال: السلسلة "ARETE"‏ لايمكن 


الاستمرار في تمييز كلماتها بصورة صحيحة إلى مجموعة الكلمات 
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"AAR LH‏ إلا بعد النهاح في تمييز السلسلة الداخلية 
le" 人民/ 为"‏ أنها مُكوتّة من الكلمات " 工作/ 人民/ 为‏ 
)£( عند تمييز سلسلة التداخل ABCDEF‏ باعتبار أن طول التداخل 
خمس وحدات» كانت نتيجة التمييز الصحيحة هي “AB/CD/EF"‏ 
متل ' "中国 产品 质量‏ التي تم تمييزها إلى مجموعة الكلمات 
和 "中国 /产品 /质量 "‏ 3 المنتجات الصينية". 
وقد اكتشف كل من جنغء وليو من خلال العمليات الإحصائية التي 
تمت على الذخيرة أنه من خلال تحليل ore‏ ال 4545 سلسلة متداخلة 
باعتبار طول التداخل وحدتين» هناك ثماني حالات اختلفت نتيجة تمييزها مع 
اختلاف السياق؛ مثل: 
السلسلة Wp SP"‏ يتم تمييزها إلى 小 学 /从‏ كما في السياق 
姐妹 /三 /人 "‏ 
从 /小 学 /到 /中 学 。‏ 7 "انتقلت الأخوات الثلاث من المدرسة الايتدائية 
إلى المدرسة الإعدادية"» ويتم تمييزها 学 /从 小‏ كما في السياق 
"她 /从 小 /学 /戏剧 /表演‏ 'تعلمت العروض المسرحية منذ صغرها". 
السلسلة AJEA"‏ يتم تمييزها إلى | "以 北约‏ كما في السياق 
"力量 。 /军事 /的 /核心 /为 /北约 /以 /确立 '‏ "إنشاء قوة عسكرية مركزها 
حلف الناتو"» ويتم تمييزها أيضنًا إلى " "以 北约‏ كما في السياق 
h de" NETAH EAE‏ خمسين كيلو مترا من مدينة 
شينغ بينغ من جهة الشمال": 
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LÍ‏ عند تحليل axe‏ ال "٤٠١۹‏ سلسلة متداخلة باعتبار طول التداخل 
ثلاث وحدات» فلم يحدث أي اختلاف في التمييز بسبب تغير السياق. لذلك فقد 
١‏ نصحا بضرورة تركيز الاهتمام بسلاسل التداخل المختلفةء بالإضافة إلى 
التعامل بصورة منفردة مع الأمثلة الخاصة التي تحمل Bb‏ وتؤدي إلى 
نتائج تخليل تختلف مع تغير السياق؛ وذلك في أثناء الدراسات المتعلقة بوضع 
استراتيجيات تمييز السلاسل المتداخلة. 

وعلى أساس الدراسة الاستقرائية التي تمت على التذخيرة اللغوية 
الصينيةء تمكن فريق البحث بجامعة شان شي من وضع قواعد تمييز 
السلاسل المتداخلة باعتبار أن طول التداخل وحدتان» وقد استخدموا تلك 
القواعد في عمل اختبار مغلق لتمييز أنواع التداخل على عدد EIET‏ سلسلة» 
وقد وصلت دقة التمييز في هذه العملية إلى %۸۷. ثم استعانوا بالقواعد 
نفسها في عمل اختبار مفتوح على ذخيرة للنصوص الصحفية AF Ss‏ من 
مليوني كلمةء فكانت نسبة الدقة .WA‏ 

فما يجب الإشارة إليه هو أن نتيجة الدراسة السابقة التي أجريّت في 
جامعة شان شي عبارة عن إحصاء لوحدات تقطيع النصوص الصينية بطول 
وحدتين للتداخل» وأن الذخيرة التي تم الاستعانة بها ذخيرة لا يتعدى نطاقها 
مليونا وثمانمائة كلمة. وأن الواقع الحقيقي لظاهرة السلاسل المتداخلة أكثر 
. تعقيدًا مما توصل إليه فريق العمل. 
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ثانيًا: دراسة جامعة تشينغ خوا 

لجامعة تشينغ خوا؛ التي تضم عدد ١١781717‏ كلمةء في استخراج جميع 
السلاسل المتداخلة التي وصل عددها إلى ۲۳۳١۸۸۸‏ نوعًا؛ وذلك من ذخيرة 
Reorpus‏ للنصوص الصحفية؛ التي يصل حجمها إلى ”6 ٠١١6.54١‏ 
كلمة[46]. وقد تراكم عدد مرات ظهور هذه السلاسل في ذخيرة Reorpus‏ 
ua!‏ إلى ۷ مرةء بإجمالي عدد رموز يصل إلى 005 
ويمثل هذا العدد من الرموز نسبة %٦,٤١‏ من حجم ذخيرة ‘Reorpus‏ 


ويعرض الشكل ١-5‏ المنحنى البياني TO)‏ للسلاسل ذات الطول 
الأكبر في التداخل ” مع مراعاة أولوية الظهور Jala‏ الذخيرة» وبمعلومية 
معدل تغطية السلاسل المتداخلة .٣‏ وقد أظهرت الإحصاءات أن عدد ال 
٠‏ سالسلة المتداخلة ذات معدل التكرار الأعلى؛ التي توالى ظهورها منذ 
بداية الذخيرة قد تجاوزت نسبة تغطيتها ho‏ وأن ال £114 سلسلة التي 
لها أكبر طول تداخل؛ التي توالى ظهورها منذ بداية الذخيرة قد وصلت نسبة 
تغطيتها إلى ,0%oq‏ 

ومن أجل تجريب النتيجة التي تم التوصل إليهاء قام فريق البحث بعمل 
مراجعة لمعدل تغطية ال £194 سلسلة التي لها أكبر طول تداخل؛ التي تم 
التوصل إليها سابقا على ذخيرة أطلق عليها اسم Acorpus‏ وتضم نصوصنا 
صحفية» وعلمية» وعسكرية يصل حجمها إلى ستة ملايين كلمة. ويوضح. 


41] 


الشكل 7-5 أن عدد ال £114 سلسلة التي لها أكبر طول تداخل؛ التي 
توالى ظهورها في ذخيرة Reorpus‏ احتفظت بنسبة التغطية نفسها Laoi‏ 
عندما تم تطبيقها على ذخيرة Cus ‘Acorpus‏ وصلت نسبة تغطيتها إلى 
6. وهذا call‏ على الرغم من من كونه أقل من نتيجنة التغطية 
بذخيرة <Reorpus‏ فإن نسبة الانخفاض ما زالت محدودة بدرجة كبيرة. وهذا 
يعني أن نسبة التغطية التي تم الحصول عليها من ذخيرة Reorpus‏ مستقرة 
إلى Se‏ كبير» وأن تأثير Bi‏ مجال الاستخدام اللغوي فيها ليس كبيراء وهذا 
٠‏ يعني أن تلك النسبة قياسية ويمكن تعميمها. 
شكل (ه-١):‏ نسبة التغطية في ذخيرة Reorpus‏ 
معدل تغطية السلاسل المتداخلة 7 مع مراعاة أولوية الظهور داخل الذخيرة 
بمعلومية السلاسل ذات الطول الأكبر في التداخل 7" 


100, 00% 
80. 00% 





شكل :(Y-0)‏ معدل التغطية r‏ داخل الذخيرة Acorpus‏ 
للسلاسل المتداخلة ذات الطول الأكبر 7 
التي تتمتع بنسبة تواتر أعلى داخل ذخيرة Reorpus‏ 
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وقد استخلص سوين ماو سونغ من ال 45١5‏ سلسلة التي لها أكبر 
طول تداخل؛ التي توالى ظهورها في ذخيرة Reorpus‏ ثلاث حالات للبس 
كما يلي: 
)1( لس زائف: حيث يكون هناك نتيجة واحدة لتمييز السلسلة المتداخلة. 
(Y)‏ لبس حقيقي من النوع. :١‏ حيث يكون هناك نتيجتان أو أكثر 
Gl (Y)‏ حقيقي من النوع Y‏ جوهر السلسلة يشير إلى وجود لبس 
حقيقي؛ ولكن Latha‏ ما يكون هناك نتيجة واحدة للتمييز. وبعبارة 
cal‏ فإن فرص ظهور نتيجة أخرى للتمييز تكون قليلة جداء 
لدرجة أنه يمكن إدراج هذا الصنف ومعالجته تحت تصنيف عدم 
وجود لبس. 
ويُظهر الجدول 4-0 النثيجة الإاحضائية لنسب هذه الحنالات Joala‏ 


الذخيرة. 
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جدول )0-£(: النتيجة الإحصائية لنسب حالات اللبس 




























نوع اللبس عدد السلاسل المتداخلة النسبة النوعية 
لبس زائف 2381 0000 
لبس حقيقي من النوع Ao ١‏ %۱,۹ 
لبس حقيقى من النوع ۲ Yoo‏ ,%0 | 
Yas | £114‏ | 








والسبب في بروز عدد حالات اللبس الزائف في نتيجة الإحصاء هو أن 
التحليل له illa‏ واحدة eid‏ وهذا أمر ليس له علاقة بالسياق؛ لذلك يمكن 
البدء بتسجيل نتائج التمييز الصحيحة لهذا النوع من الكلمات في قائمة» ولن 
يحتاج الأمر إلا إلى عملية معالجة بسيطة من خلال تلك القائمة حتى يمكن 
تمييز هذا اللو ع عن CLAY‏ بصورة Aida‏ داخل lity ceo gual‏ إلى S‏ 
مجموع نسب اللبس الزائف واللبس الحقيقي من النوع ۲ قد غطت %۹۸,١‏ 
من إجمالي ال 4515 سلسلة التداخل ذات معدل التكرار الأعلى في ذخيرة 
<Reorpus‏ ونسبة %۸,٦‏ من إجمالي سلاسل الكلمات ذات الطول الأكبر 
في التداخل» لذلك فإن استراتيجية التمييز البسيطة التي ذكرت آنا تحبر من 
الوسائل الفعالة بدرجة كبيرة في حل مشاكل اللبس في تمييز الكلمات داخل 
السلأسل المتداخلة. 

وبمراعاة الخصائص الشكلية للسلاسل ذات الطول الأكبر في التداخل؛ 
مثل طول سلسلة التداخل» وطول الاقتران» وطول السلهبلة وغيرها من 
العوامل»ء فإن ذلك من شأنه أن يؤثر تأثيرًا مباشرًا في استراتيجيات تمييز 
الكلمات داخل السلاسل المتداخلة. وقد قام سوين ماو سونغ في المرجع 
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رقم بإحصاء توزيع تلك العوامل الثلاثة داخل الذخيرة اللغوية. وكانت 
نتيجة الإحصاء كما يلي: 


0 السلاسل ذات الطول الأكبر في التداخل داخل ذخيرة :Reorpus‏ 

يُسْتخدم الرقمان CO‏ بين القوسين في العمود الذي يحمل عنوان 
-o meet‏ -0 ليشير كل منهما إل بداية العناصر المتداخلة» 
وطول سلسلة التداخل على التوالي. على سبيل المثال: في الصف الأول من 
الجدول نجد ما يلي: "(89)0,2()1,2 "HL‏ حيث إن الرقم الأول في )0,2( 
يُشير إلى أول عنصر في سلسلة التداخل وهو STL"‏ حيث يقع الرمز الأول 
فيه في الموضع الأول من السسلة (أي أن موقعه في السلسة = صفر) وطوله 
يساوي اثنين Gl)‏ أنه قد تم تمييز كلمة مُكوّنة من رمزين)؛ أما الرقمان 
(Ye)‏ فيشير الأول منهما إلى ثاني عنصر في سلسلة التداخل وهو CHAI”‏ 
حيث يقع الرمز الأول فيه في الموضع الثاني من سلسلة التداخل (أي أن 
موقعه في السلسة-١)‏ وطوله يساوي اثنين أيضًا (أي أنه قد تم تمييز كلمة 


AK‏ من رمزين). 
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جدول (ه-5): توزيع أطوال السلاسل ذات الطول 
الأكبر في التداخل!"ا 





لطول الكبر د a ae‏ 
م لنسبة | النسية أمثلة واقعية 


لاوا TT‏ 3 
| التداخل السب سا 22 





项 目的 (2)0L2)， 上 海 市 .20L2)， 为 |。 oa ee on ومس‎ 
_AR02)0,2), F022) | PET | AYS 





在 意大利 (0,2)(1,3)， 离 退休 人 金 l, 0 
(3,3)(1,3)， 行 政 区 域 (0,3)(2,2) ent | ey 1 Wh i 





进 一 部 到 位 (0,3)(2,4)， 自 来 水 龙头 | 。 E 
(0,3)(2,3), 剩余 劳动 力 (0,4)(2,3) /00,4 人 YY, 558١ ° 
































申请 人 名 法 院 (0,3) C2,4)， 自 由 市 场 经 济 | سيو‎ oy | yri | cour | a 
(0,4)(2,4) 
少数 民族 自治 区 (0,4)(2,4)(4,3)， 与 此 同 | o, 0 
时 差不多 (0,4)(3,2)(4,3) ell E e We 
主持 人 请 不 自 禁地 (0,3)(2,2)(3,4)(6,2)， % 8 ١ ۷ % +0 ١ ١ ١ 4 5 A 
扎 扎 实 实地 下 功夫 (0,4)G3,2)(42)53) | | L 
领导 人 民 建 立新 中 国 Gog: | hu ia 4 
(0,3)(2,2)(3,2)(4,2)(5,2)(6,3) | 








)1( النماذج اللغوية في هذا الجدول والجداول الشبيهة في هذا الباب للتمثيل على ظاهرة 
تنفرد بها اللغة الصينية تتمثل في عدم وجود فاصل بين حدود الكلمات في النصوص 
التحريرية» وتحديد هذا الفاصل يقوم به العقل البشري بطريقة منطقية تعتمد على 
السياق وتصاحُب الرموز الصينية. أما بالنسبة إلى الآلة فالأمر يحتاج إلى طرق 
استدلالية wed‏ مقوماتها من الأداء البشري» إلى جانب الدراسات الإحصائية لمعدلات 
تصاحب الرموز Cushy‏ تكرارها. إلا أن الأمر لم يستقر عند هذا faal‏ حيث ظهرت 
حالات اللبس في وضع حدود للكلمات G‏ الأمر الذي استدعى وجود مثل تلك 
الدراسات التي ينفرد بها هذا الفصلء التي حققت نجاحًا كبيرا على المستوى التطبيقي. 
وقد “sol‏ علماء الاغويات الحاسوبية باللغة الصيية هذه القضية بمثاية عفق الزجاجة 
في سبيل خروج اللغة الصينية التحريرية إلى مستويات المعالجة الآليةء ونود الإشارة 
إلى أن ما توصل إليه الصينيون من حلول» من الممكن أ يتشد يد في وطيع حافك 
لمشكلات اللغة العربية في التشكيل الآلي للكلمات الذي يُعتبر Caj‏ غنق الزجاجة أمام 
اللغة العربية في مجال المعالجة الآلية. (المترجم) 
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青年 突击 队长 生 龙 活 虎 
(0,5)(4,2)(5,2)(6,4) 





全 民 所 有 制 表演 艺术 团体 
(0,5)(4,2)(5,2)(6,2)(7,3)(9,2) 
合法 政党 参与 国家 政治 生活 
(0,2)(1,2)(2,2)(3,2)(4,2)(5,2)(6,2)(7,2)(8,2) 
(9,2)(10,2) 











鸟 效 别克 斯 坦 共 和 国外 交 部 
(0,9)(8,2)(9,2)(11,2) 
提高 人 民生 活水 平息 息 相关 
(0,2)(1,2)(2,4)(5,2)(6,2)(7,2)(8,2)(9,2)(10,4) 





yes 














YYYAAA 








eo 
Wire Yiee 





الإجمالى 

















وتشير نتيجة الإحصاء إلى أن النسبة النوعية والنسبة العددية 
للسلاسل ذات الطول ٤ «oY‏ رموز قد وصلت إلى AYA, AY‏ و°٦,%۸۹‏ 
Cal le‏ بما لا يدع مجالا للشك أن هذين الطولين يمثلان 
الطول الأكبر لسلاسل الكلمات المتداخلة dala‏ ذخيرة -Reorpus‏ وإذا قمنا 
بجمع النسب الخاصة بالسلاسل ذات الطول ١٤٤ء٥٠ Ga‏ سنجد أن النسبة 
النوعية والعددية لهذه السلاسل مجتمعة هي WAV AN‏ و5١,9,6191‏ على 
التوالي. ومن الواضح أن هذه الأطوال الأربعة للسلاسل الكلامية ينبغي أن 
تصبح محل اهتمام العلماء والباحثين. 


:Reorpus توزيع طول محور التداخل في ذخيرة‎ (Y) 
أظهرت نتيجة الإحصاء أن العناصر المتداخلة؛ التي تتجاور حدودها‎ 


في سلاسل التداخل لا يتعدى طول تداخلها أكثر من رمز واحد (وصلت 
النسبة النوعية لهذا الطول %99,0V‏ والنسبة العددية له (WA‏ وكان 
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إلى عدم وجود عناصر متداخلة يصل طولها إلى ٤‏ رموز على الإطلاق. 


(Y)‏ توزيع طول السلاسل ذات الطول الأكبر في الذخيرة: 


(1-5): توزيع أطوال السلاسل ذات الطول الأكبر في الذخيرة 
العدد النسبة 










جدول 
































العدد النسبة 
٠‏ 2 عة 0 0 0 
كرد es‏ ا اي Jail Atul‏ 
التداخل | لمحور | لمحور لمحور لطول 
| التداخل | التداخل ١‏ التداخل 
比如 如 何 (0,2)(1,2)(2,2)，‏ 
VVAVOAY | 4۹4,9 | ۹1 \‏ | %44,6 
FE MEE (0,4)(3,2)‏ 
T‏ = |= | 
民族 资本 家 (0,4)(2,3)，‏ 
Yor1۲ r, VY y‏ %۰,۹ 
留洋 博士 生 (0,2)(1,3)(2,3) |‏ 
犹如 箭在弦上‏ 
MITRE | wrt fY hr, ١ w‏ ,)0,2)(1,4)(2,4( 
命 分 子 (0,5)(2,5)‏ 
الإجمالي | .£104 VAR YAPAY 下 AREP‏ 
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جدول :)١-5(‏ توزيع طول السلاسل ذات الطول الأكبر في التداخل 






أمثلة واقعية 





表现 在 (0,2)(1,2)， 留 学 生 
会 (0,3)(1,3)， 国 民 经 济 基 
础 (0,4)(2,4) 


Mov, SA 





النسبة النوعية 


Aé, TA 





任何 时 候 (0,2)(1,2)(2,2)， 
革命 根据 地 (0,2)(1,2)(1,3) 


| Aaa 


عدد سلاسل 
التداخل 


طول 
سلسلة 





101۸ 


التد ك 


y 





HEV VV 


yyoe1y 





中 国营 养 协会 
(0,2)(1,2)(2,3)(4,2), RE 
民族 资本 主义 


(0,2)(1,2)(2,4)(4,4) 


%) A) 


%1,° 


yer). 





野外 科学 工作 
(0,2)(1,2)(2,2)(3,2)(4,2), Æ 
出 世界 杯赛 


(0,2)(1,2)Q,3)(4,2)(5,2) + 


w., sY 


%Y V4 


VV AY 





在 野生 动 植物 资源 


%۰,1 


%۰,۸ 


VEO 





(0,2)(,2)(2,2)(3,3)(5,2)(6,2) | 

进行 经 常 性 爱国 主义 教育 

(0,2)(1,2)(2,3)(4,2)(5,4)(8,2) 
(9,2) 


fH., é 


00 


Vo 





SAIN FRAC Hl Hs EHF 
(0,2)(1,2)(2,2)(3,2)(4,2)(5,2) 
(6,2)(7,2) 


Weis 


%۰,۱ 


v4 





| 城乡 居民 生活 水 平稳 固 | 
(0,2)(1,2)(2,2)(3,2)(4,2)(5,2) 
(6,2)(7,2)(8,2) 


% ° 





个 国人 民生 活水 平和 美化 
(0,2)(1,2)(2,2)(3,2)(4,2)(5,2) 


r,s 


%*, 





|__(6,2)(7,2)(8,2)(9,2) 
合法 政党 参与 国家 政治 生 
活 


(0,2)(1,2)(2,2)(3,2)(4,2)(5,2) 
(6,2)(7,2)(8,2)(9,2)(10,2) | 


= 


o, ° 


%۰,۰ 











ل 2% 





Nr, 





YTYYA 人 人 
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وقد أظهرت نتيجة الإحصاء أن السلاسل ذات الطول eY‏ ۳ رمزا! 
تحتل النسبة الأكبرء وأن النسبة النوعية لها تصل إلى cAI,‏ والنسبة 
العددية لها تصل إلى 90917,77. وأن أطول سلسلة تم مشاهدتها داخل 
الذخيرة التي يصل حجمها إلى مائتي مليون كلمة كانت١١‏ رمزا ولم تظهر 
إلا مرة واحدة فقط. ` 

وقد أظهر مستوى أعمق من استقراء الذخيرة أن النوع الواحد من 
السلاسل قد يحتوي تكوينات داخلية مختلفة من حيث التركيب. ومن الواضح 
أن اختلاف التركيب الداخلي للسلاسل الرمزية ذات الطول الأكبر يؤدي إلى 
اختلاف استراتيجية التمييز. على سبيل المثشالء السلسلتان ">الا] 8" 
REEN s‏ لهما طول واحد هو أربعة رموز صينيةء إلا أن الأولى بها 
محورين للتداخل طول كل منهما رمزين وهما على التوالي CEHI‏ 
TR",‏ أما في الثانية فنجد أن بها محور تداخل يصل طوله إلى ثلاثة 
رموز حيث Tg)‏ هذا المحور بالتالي الكلمات ثنائية “花生 "棉花 "jo‏ 
E g‏ على التوالي» وعلى هذا الأساس نجد أن طول محور التداخل بهذه 
الكلمات يصل إلى رمز واحد. 


A AS 


وهناك تراكيب معينة في سلاسل التداخل من الممكن الحصول على 
نتيجة جيدة في تمييز كلماتها إذا تم الاعتماد على الأنواع النحوية للكلمسات؛ 
ولكن استخدام هذه الطريقة في معالجة تراكيب أخرى لا يضمن الحصول 
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على نتائج مرضية. وقد قام سوين ماو سونغ بتقسيم السلاسل ذات طول 
التداخل الأكبر من حيث التركيب الداخلي لها إلى نوعين هما سلاسل ذات 
تركيب كبيرء وسلاسل ذات تركيب دقيق» هذا بالإضافة إلى أنه قدم وسيلة 
لوصف هذين النوعين والنتائج الإحصائية الخاصة بكل منهما كما يلي: 


)١(‏ طرق التعبير عن أنواع التراكيب الكبرى للسلاسل والنتائج الإحصائية 

لتقسيماتها: 

نظرا إلى أن العناصر المتداخلة هي الوحدات الأساسية التي تتكون 
منها سلاسل التداخل» فإنه يمكن إجراء عملية تقسيم الكلمات داخل سلسلة 
الرموز المتداخلة 5 وفقا لتلك العناصر. وبصورة أكثر تفصيلاً يعني ذلك أن 
كل زوج من الأرقام داخل القوسين في الجدول السابق يشير الرقم الأول 
منهما إلى بداية التمييزء في حين أن الرقم الثاني يشير إلى طول سلسلة 
التمييز داخل سلسلة التداخل S‏ على سبيل المشال: سلسلة التداخل 
“ET‏ تم تسجيل معلومات التركيب الأكبر لها على أنه (Yee)‏ أي أن 
بداية التمييز تبدأ من الرمز الذي يحمل الرتبة )+( داخل السلسلة وهو الرمز 
"5" وطول الكلمة التي يتم تمييزها هي ثلاث رتب بدءًا من الرتبة )+( وهي 
الرموز ) (重工 业‏ وبذلك تكون الكلمة التي تم تمييزها هي ) (重工 业‏ 
"الصناعات PALM‏ و(١١۳)؛‏ أي أن بداية التمييز تبدأ من الرمز الذي يحمل 
الرتبة )١(‏ داخل السلسلة وهو الرمز T"‏ وطول الكلمة التي يتم تمييزها هي 
ثلاث رتب بدءًا من الرتبة )١(‏ وهي الرموز ) (工业 区‏ وبذلك تكون الكلمة 


421 


التي تم تمييزها هي ) (工业 区‏ "مناطق الصناعة"؛ والسلسلة " "棉花 生产‏ تم 
تسجيل معلومات التركيب الأكبر لها على أنه (XY) (VV) (Ye)‏ 

وعند تصنيف إجمالي السلاسل ذات التركيب الأكبر التي احتوتها 
ذخيرة ‘Reorpus‏ التي وصل عددها إلى ۲۳۳١۸۸۸‏ سلسلة تم الحصول 
على عبد ۳٠۲‏ تصنيفا. وفيما يلي يعرض الجدول: ۸-١‏ معلومات عن 
التركيب الأكبر لعدد VY‏ تصنيفا منها؛ حيث يمثل هذا العدد أهم التصنيفات 
التي تم التوصل إليها. وتشير الأرقام الإحصائية في هذا الجدول إلى أن 
توزيع التركيب الأكبر للسلاسل مُركز بدرجة كبيرة؛ حيث تمشل معلومات 
التركيب (Kee)‏ و(١١۲)‏ بالإضافة إلى (YoY) 5 (Ved) 5 (Yer)‏ نسبة 
التواجد الأكبر من بين ال ۷٠١‏ سلسلة؛ حيث يحتوي كل سجل في الجدول 
aal‏ هذه العناصر على أقل تقديرء وقد وصل إجمالي النسب النوعية والعددية 
لهذه التراكيب إلى ALON 5 VY‏ على التوالي. 
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جدول (Ae)‏ توزيع التركيب الأكبر للسلاسل المتداخلة 
التراكيب | 
الكبرى | 
dale‏ 
الى Rea‏ 0 0 












































































































， 于 今天 ， ， 办 法 则 ， 
及 其 他 ， 于 今天 ， 把 风车 ， 办 法 则 ,放风 | ويب‎ ev E 
第 ， 同 行业 ， 开 发 出 ， 转 化 为 
中 华人 民 ， 工 商行 政 ， 研制 成 功 , 主要 领 | عمو‎ vv P 
导 ， 产 品质 量 ， 今 天 下 午 ， 国 家 规定 (ver 
ATEN, RL: HMA, RA Wy ey Wy 45 TAY (<) (Ter) 
业 ， 发 电机 组 ， 合 格 证 书 ， 政 治 局 面 
文化 工作 者 ， 借 方 生产 力 ， 上 报国 务 院 ， ga a = BAG 
进行 规范 化 ， 参 加 座谈 会 
国外 交 部 ， 种 子 公司 ， 促 进出 口 ， 上 天 安 er e | 
| ,در‎ RESE, SESA, MEBE 
国内 外 贸易 ， 为 主要 目标 ， 落 实在 行动 ， pe aun 558 )2,1( (2,0) 
展现 在 世人 ， 工 作 主要 是 | ' | 2,3) 2.2) 
AMETE, RARER ELLIE, %1,4 %Y 4. VAS (3,0) (2,3)(2,2) 
大 部 分 地 区 ， 进 一 步调 束 
适应 市 场 经 济 ， 严 重 刑事 犯罪 ， 中 国有 色 |g 人 er tei. 1 Ee) 
金属 电子 集团 公司 0) 

: 外 加 工装 配 ， 集 体 统一 ree) 
体高 产品 质量 ， 对 外 加 工装 配 ， Z %s,Yo i MY o (ver)(vey) 
经 营 ， 专 职 功 作 人 员 ， 内 部 分 配制 度 32 
社会 主要 理论 ， 古 典 文学 名 著 ， 出 租 汽车 de a gas (YNE) 
行业 ， 经 济 作物 种 植 ， 举 足 轻 重地 位 o (t) 
前 所 未 有 的 ， 高 尔 夫 球场 ， 乡 镇 企业 已 ， e 96 bast, e) 

别开生面 的 ， 社 会 保险 局 
市 场 经 济 体制 ， 企 业 集团 公司 ， 自 成 一 家 — i, ol R (E(t) 
ZH, EXREZH, MARIO 
%1,۷ %0, VYYAY أخرى‎ 
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(Y)‏ طرق التعبير عن أنواع التراكيب الدقيقة للسلاسل والنتائج الإحصائية لتقسيماتها: 

shay‏ بالتراكيب الدقيقة داخل سلسلة الرموز كل من موضع الكلمسات 
المحتواة داخل السلسلة وطولها (بغض النظر عن كونها تمثل عناصر متداخلة 
أم لا) (بما في ذلك الكلمات التي طولها رمز واحد) على سبيل المثال: 

FA سلسلة التداخل:‎ 
重工 业 区 

ài) (ce) 6(Vee) أنواع التراكيب الدقيقة التي تحتويها السلسلة:‎ 
(rt) ‘(YY) (Y) 6(\«¥) ‘(Ye') (Yi) 

سلسلة التداخل: 

棉花 生产 

(Ved) (Tee) (Vee) أنواع التراكيب الدقيقة التي تحتويها السلسلة:‎ 
.)١ Y) 6(¥<¥) cc) (Y) 

ومن هنا نلاحظ أن التركيب الأكبر الواحد من شأنه أن يحتوي عددا 
من التراكيب الدقيقة. وبالنسبة إلى أبسط تركيبين كبيرين (VEN) 5 (Ve)‏ 
والذين لهما معدل التكرار الأعلى في الذخيرة نجد أنهما يحتويان الحالات 
الثمانية التالية من التراكيب الدقيقة: 
Yes) (Yor) =I‏ 
YAY) -Y‏ 
Vev)(v¥er)(Yeo) -¥‏ 
Vev)(Yer) (Ye) -4‏ 
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وعند تصنيف إجمالي السلاسل ذات التركيب الدقيق التي احتوتها 
(Reorpus 553‏ الك ول nase‏ إلى ۳۳4۸4 فة کے gual‏ 
على ac‏ 11117 تصنيف» وفيما يلي يعرض الجدول ٩-٥‏ معلومات عن 
أهم التصنيفات التي تم التوصل إليها؛ حيث SiS‏ معلومات التركيب الدقيقة 
(eV) (Fo) (ANa (Yee) oer)!‏ بالإضافة إلى (Vo)‏ 
(V) (Ve) (I)a (YA) (Ved) y (Yer) 5‏ نسبة التواجد 
الأكبر من بين ال ٠٠١‏ سلسلة؛ حيث يحتوي كل سجل في الجدول aaf‏ هذه 
العناصر على أقل تقدير» وقد وصل إجمالي النسب النوعية والعددية لهذه 
التراكيب ۳۷,١%۷»ء AAY, O g‏ على التوالي9075. وتشير النتائج 
الإحصائية» على الرغم من أن توزيع التراكيب الدقيقة يبدو أنه أكثر تشتتا 
من التراكيب الكبيرة فإننا إذا نظرنا إلى الأمر نظرة كلية سنجد أن هذا 
النوع من التراكيب ما زال متماسكا بدرجة كبيرة. 
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外 交 部 长 , 交 啊 乐团 ,青年 人 
才 , 生 活 费 用 ,所 在 地 区 ,解放 
军队 ,时 装 表演 ,无 线 电 厂 , 消 

防 队 员 , 受 灾 面 积 


C1 


or 


1۳ 








大 会 堂 会见, 百 分 之 一 点 , 充 

分 说 明了 ,开发 生产 出 ,地 表 

现 出 来 ,近年 来 由 于 ,生活 水 
平和 ,于 今年 年 底 . 


%1, 


4,۷۰ 


١١ 


1١ 
YoY 
١ 





解放 生产 力 ,革命 根据 地 , 服 

装 设计 师 ,出 生性 别 比 ,养老 

保险 费 ,极端 重要 性 ,管理 科 
学 化 ,发 展现 代 化 


%1,۲ 


%1,۱ 


YoYo 


i 
ran 


Yo) 
Ye) 
1۳ 





自行 车 上 ,流窜 犯罪 一 方 

面 对 , 输 电线 路 ,小 学 校长 ,地 

下 水 位 ,带头 人 和 ,推动 力量 ， 
安全 部 门 ,面积 分 别 


,ds 


% of 





代表 团团 长 ,解放 军官 兵 ,成 
年 人 犯罪 ,平方 米面 积 ,现代 
化 装备 ,地 下 党 组 织 , 所 有 制 


场 , 极 大 地 方便 了 ,没有 形成 
规模 ,外 汇 收 入 超过 ,内 部 分 
配方 式 ,总 结交 流 经 验 ,这 个 
中 心服 务 
在 座谈 会 ,有 生命 力 ,新 生长 
点 , 负 有 心 人 ,和 和 解放军, 对 开 
发 区 ,了 当事人 ,还 有 赖 于 ,本 
科学 家 ,一 代表 团 


A, YA 


成 分 ,共产 党 内 部 
随 着 生活 水 平 ,开放 大 米 市 


% yY 


%' ,on 


WY ,00 


YY 


YAY 


| 
= 
3 








oY 


Yeg 
(١ 


i 
ey 


‘o)( 


to 





% ANY 


9%，AA 


viy) 
3 


ie 
ran 





中 国运 载 火 箭 , 现 有 生产 能 力 ， 
紧急 电话 会 议 ,中 国外 汇 制度 ， 
防止 水 土 流失 ,生产 假冒 伪劣 ， 
严重 水 土 流失 ,更 加 深入 人 心 ， 


%., 0V 


9%，,Ao 


۱۹44 


YY 


一 一 -一 上 -一 一 
i a 
~ ~ 
اچ حم‎ 


Vos 
1۲ 
yi 


ع حو اا ا 


Ue 
J 





成 人 教育 中 心 ,出 乎 意料 之 
外 ,拳头 产品 开发 ,登山 运动 
健将 ,不 过 如 此 而 已 ,增产 增 
收 节 支 有限 广播 电台 , 靳 泌 
大 雨 倾盆 ,四 面 八方 支 援 


%',oy 


Ha, 


(Ee 
OTTO) 
(<s 


) 





技 人 产 出 水 平 ,自力 更 生发 展 ， 

独立 自主 和 平 ,水 土 流失 重点 ， 

大 案 要 案情 况 ,主观 能 动作 用 ， 
广播 电台 联合 








% 人 


%+, 24 








31۸ 





ny 
ict 


0 


(\<0)(¥<£) 8 


ve) 
1۳ 
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هذا وقد استخدم المرجع رقم[96] عدد IYA‏ علامة من علامات 
التصنيف النحوي للكلمات لعمل تصنيف أكثر تفصيلاً للتراكيب الكبرى 
. والدقيقة؛ على سبيل المثال: سلسلة التداخل CAEN"‏ و "ا 
و" #46" تركيبها. الأكبر هو "(١ء٠)ء‏ و(١١٠)"‏ إلا أن الأنواع النحوية 
للعناصر المتداخلة في هذه السلاسل مختلفة» وهي على التوالي كما يلي (اسم 
+ اسم)ء و(فعل + اسم)ء و(فعل + فعل). 

وقد تم إضافة علامات التصنيف النحوي لعناصر التداخل في عدد ال 
4 سلسلة كلامية التي تحتويها ذخيرة <Reorpus‏ ثم كسمت حسب 
التركيب الأكبر لها فكانت النتيجة الحصول على عدد ١5.548‏ نوعًا. 
ويعرض الجدول )٠١-0(‏ معلومات عن توزيع ال VY‏ نوعًا الأساسية من 
هذه النصنيفات. وعند عمل تصنيف إضافي أكثر تفصيلاً للتراكيب الكبرى 
في السلاسل المتداخلة حسب معلومات التصنيف النحوي للكلمات الداخلة في 
التركيب» وأجد أن هناك تشتتا في التوزيع؛ Cus‏ يحتوي كل صنف ١4 ase‏ 
YGa‏ وقد تجاوز إجمالي النسبة النوعية والعددية لل VY‏ نوعا التي وردت 
في البداية .7906٠‏ 

وبالقاعدة نفسها من الممكن إضافة علامات توضح التصنيف المحتوي 
لكل كلمة من GLAS‏ سلاسل التداخل La)‏ في ذلك الكلمات التي تتكون من 
رمز واحد). على سبيل المثال» سلسلة التداخل " "立法 权‏ "السلطة التشريعية" 
يتم وضع علامات التركيب الدقيق ومعلومات التصنيف النحوي لعناصرها 
كما يلي: "(ngngngygvg) tO AAO IE e)‏ وأصبحت 
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نتيجة ذلك تمييز عدد 123,356 كلمة من بين ال 233,888 سلسلة متداخلة في 
الذخيرة» بمعدل لا يزيد عن رمزين لكل كلمة من الكلمات التي تم 
استخراجها. وقد كان عدد الكلمات التي تم الحصول عليها من خلال هذه 
الطريقة لتحليل التركيب الدقيق لسلاسل التداخل MS‏ لدرجة ضعف معها 
المغزى الحقيقي لهذه الطريقة في التقسيم. إلا أن نتائج الإحصاءات التي تم 
الحصول عليها قد كشفت عن درجة كبيرة من تعقد أنماط تراكيب سلاسل 
التداخل» ويعتبر ذلك من العوامل التي ينبغي أخذها بعين الاعتبار في أثناء 
وضع التصميم التفصيلي للطرق الحاسوبية في تمييز الكلمات داخل 
النصوص الصينية. 
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جدول (ه-١٠):‏ التراكيب الكبرى لسلاسل التداخل + 





ae ae‏ النحوية داخل كل تركيب 










































































Hrd | We, VY a) (vg,vg) 
人 民 , 产 品质 
量 汽车 工业 ， 干部 %oYY | %oYA | 12579 | (ng,ng,ng) ل‎ go 
队伍 ,内 科学 会 3 
出 国门 ,等 同志 ， 
主 战场 ,上 人 台阶 ,从 | 704,45 | %0,\Y | 11971 | (vgng) | (2,1)(2,0) 
政治 ,着 眼 ; 
基督 教徒 ,价值 观 
Er nai AYA. | %\,AV | 4602 | (ngng) | (2,2)(3,0) 
AT EL 
: REARS %Yee | WF,NE | 7578 | (vg,ng,ng) (1) (1.0) 
市 场 侵犯 人 权 | 
2 sone AR %Yoy | WF, | 9123 | (vgvgng) ego) 
资金 ,发 生 事故 : 
需求 和 ,地 支持 ,人 
参加 ,地 理解 文化 | %\ | 55| 5745 (ng,vg) (2,1)(2,0) 
,学 校对 
国文 化 ,长 江 流 
域 ,香港 客人 ， %1,6 | %+,¥° | 1761 | (sngng) (251) (2.0) 
市 场 ,西藏 历史 ? 
卖 ,引起 重视 , 建 查 | 0,55 |-%Y,)+ | 4917 | (vg,vg,vg) 0 2) 
， 装 修 5 
重 , 打 
破旧 .和 亲切 ， 提高 | %yya | %+,£) | 970 (vg,a) (2,1)(2,0) 
3 分 神秘 
raed an %1,۳ Yo+,£) | 965 (wg,a) (2,1)(2,0) 
%1,0 | Nes, wg,a ,1)(2, 
ae ا‎ | , 
o11 | %1,1 | 142104 اخری‎ 
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يتضح مما سبق أن نتائج إزالة اللبس من سلاسل الكلمات المتداظة | 
التي تعتمد عليها أنظمة تمييز حدود الكلمات في اللغة الصينية لم تصل إلى 
الحد المرغوب فيه حتى الآن. والسبب الرئيس في ذلك هو أن العلماء لم 
يصلوا إلى سبر أغوار التشابك والتعقد الكامن في سلاسل الكلمات المتداخلة؛ 
بالإضافة إلى أن الطرق الحاسوبية في إزالة اللبس لم تصل إلى حد النضح 
بعد. إن الأعمال الاستقرائية التي قام بها فريقا البحث بكل من جامعتي شان 
شي وتشينغ خوا على ذخيرة كبيرة الحجم واستخدام بيانات إحصائية دقيقة 
كان من شأنه إزالة ساتر الغموض عن سلاسل الرموز المتداخلة:؛ وإتاحة 
الفرصة لتكوين رؤية مشتركة بين الباحثين حول تلك المشكلةء بالإضافة إلى 
إدراك طبيعة الاختلافات التركيبية Lad‏ بين عناصرها. وهذه النتيجة . 
ضرورية بدرجة كبيرة في التوصل إلى طرق حاسوبية في إزالة اللبس LM‏ 
- عن سلاسل الرموز عند تصميم تلك البرمجيات على أرض الواقع. وقد 
أظهرت الأعمال التي قام بها فريقا البحث أن برمجيات التمييز الآلي لحدود 
الكلمات القائمة على استقراء الذخائر المُكوّنة من سلاسل متداخلة كان من 
شأنها رفع دقة إزالة اللبس عن سلاسل الرموز المتداخلة بصورة ملموسة. 
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الفصل الثاني 
الدراسات المتعلقة بتمييز 
التعبيرات الاسمية الأساسية في اللغة الصينية 


إن تمييز التعبيرات الاسمية الأساسية من الدراسات المهمة في Jia‏ 
معالجة اللغات الطبيعية واسترجاع المعلومات والترجمة الآلية وغيرها من 
المجالات. وقد قدم العالم تشيرش (Church)‏ تعريفا للتعبيرات الاسمية 
الأساسية في اللغة الإنجليزية (baseNP)‏ بأنها "التعبيرات التي لا تتضمن 
تعبيرات اسمية أخرى بداخلها7”. وقد اعتبر تشيرش أن تمييز التعبيرات 
الاسمية الأساسية بمثابة الإشكالية التي تمكن من عملية ترميز الحدود اليمنى 
واليسرى لهذه التعبيرات» ويتم تحقيق ذلك من خلال نمط العنصر .N‏ وقد 
سبق أن قامت العالمة لي وين جييه من جامعة اللغة الصينية بهونج كونج 
باستخدام طول التعبيرة الاسمية (N-gram)‏ في عمل تمييز للحدود الكبرى 
للتعبيرات الاسمية. وقد أثبتت تجربتها أن الاكتفاء باستخدام طول التعبيرة 
الاسمية (N-gram)‏ الذي سبق تحديده وفقا للتصنيف النحوي للكلمات لا 
يكفي لعمل تمييز صحيح للتعبيرات الاسمية داخل النصوص الصينية. هذا 
وقد قام العالم جاو lage‏ من جامعة تشينغ خوا بوضع تعريف للتعبيرات 
الاسمية الأساسية في اللغة الصينيةء بالإضافة إلى أنه اعتمد على ذخيرة 
استرشادية تم ترميزها يدويًا في استخدام أنماط التراكيب النحوية مع التحرر 
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من السياق. إلا أن الدراسة أوضحت أن ترتيب الكلمات الذي يتطابق مع 
٠‏ أنماط التراكيب النحوية شرطا ضروريًا لتركيب التعبيرات الاسمية الأساسية 
وليس شرط اكتفاء يمكن الاستغناء به عن وجود باقى الشروط. فإذا تم 
الاعتماد على ترتيب الكلمات Jala‏ النصوص في التعرّف على التعبييرات 
الاسمية الأساسية بصورة أساسية فسوف تكون نسبة الدقة بما لا يتعدى 
5.. لذلك إذا أردنا عمل تمييز دقيق للتعبيرات الاسمية داخل 
النصوص» فسوف نحتاج إلى القواعد المتعاقة بالسياق في استخراج 
التعبيرات الاسمية الأساسية» التي يتم التوصل إليها من خلال التدريب 
والتجريب المستمرين. وقد أثبتت الدراسات أن الجئع بين كل مسن ان اط 
التراكيب الأساسية للتعبيرات الاسمية acl @gbaseNP‏ التحور يل الخاصة 
بالسياق المحيط بالتعبيرة الاسمية ga baseNP‏ شأنه ان BRS‏ نسبة دقة في 
التمييز تصل إلى %۹١,١‏ و AAY, Y‏ في كل من الاختبارات المغلقة والحرة 
على التوالي. 
5 أولاً: تعريف التعبيرات الاسمية الأساسية baseNP‏ في اللغة الصينية 


كما سبق أن أشرنا i‏ العالم تشيرش تعريفا للتعبيرات الاسمية 
الأساسية على أنها "التعبيرات التي لا تتضمن تعبيرات اسمية أخرى بداخلها“ 
بمعنى أن تركيبها الداخلي لا يمكن أن يحتوي تعبيرات اسمية أقل. ويبدو أن 
هذا التعريف لا ES‏ أن يفى بأغراض معالجة اللغات الطبيعية باللغة 
الصينية» على سبيل المثال تعبيرات اسمية؛ مثل: " "自然 语言 处 理‏ 'معالجة 
اللغات الطبيعية"» ENERE y‏ 'الأزمة الاقتصادية في آسيا“ 
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"经 济 体制 改革 '，‏ "إصلاح النظام الاقتصادي“ وغير ذلك من التعبيرات 
الصينية التي لا يمكن أن ينطبق عليها شرط عدم إمكانية الاحتواء على 
تعبيرات اسمية أقل. ولكن من وجهة نظر استرجاع المعلومات والترجمة 
الآلية فإن هذه التعبيرات لها معاني Aala‏ وتحتاج المعالجة على Ligh‏ 
بأكملها تنتمي إلى التعبيرات الاسمية. وقد سبق أن قدم جانغ وي قوه تقسيمًا 
EE‏ لأنواع المُحَدّدَات التي تأتي في التعبيرات الاسمية هي: مُحذدات للتقييد» 
Ag‏ للوصفء ومُحددات Nl‏ وقد PE‏ جاو جوين مجموعة من 
التعاريف الشكلية للتعبيرات الاسمية الأساسية ING) Úi y (base)‏ التقييد 
كما يلي: 
BaseNP 一 baseNP + baseNP‏ 
مصدر | BaseNP 一 baseNP + au!‏ 
baseNP‏ + مُحَدّد للتقييد — BaseNP‏ 
مصدر | اسم + مُحَدّد للتقييد — BaseNP‏ 
مُحدّد التقييد سه صفة | تمييز | فعل | اسم | ظرف مكان | سلسلة من 
الحروف اللاتينية | عدد وكلمة كمية. | 
ووفقا للتعريف السابق» يمكننا تقسيم التعبيرات الاسمية في اللغة 
الصينية إلى نوعين أساسيين هما: تعبيرات اسمية أساسية» وتعبيرات اسمية 
غير أساسيةء وفيما يلي نطرح بعض الأمثلة للشرح: 
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جدول )1-0( أمثلة على التعبيرات الاسمية 
الأساسية والتعبيرات الاسمية غير الأساسية 








| ٠ تسيرات اسمبة اساسية تعبيرات اسمية غير أساسية‎ 
甲 级 联赛 ”产品 结构 。 空中 走 | 复杂 的 特征 ”这 人 台 计算 机 ”很 大 成 就 
Jig 对 于 形势 的 估计 明 朝 的 古董 
FRET “促销 手段 ”太空 旅行 | 11 万 职工 ”高速 发 展 的 经 济 FF 
自然 语言 处 理 ”企业 承包 合同 究 与 发 展 ”老师 写 的 评语 
第 四 次 中 东 战争 














ثانيًا: أنماط التراكيب النحوية في التعبيرات الاسمية الأساسية 
انطلاقا من تعريف التعبيرات الاسميةء يمكننا أن نعرف أن تلك 
التعبيرات ينبغي أن تلتزم في تركيبها بقواعد نحوية مُحَدَّدَة وقد أطلق جاو 
جوين على تلك القواعد غير السياقية التي تبنى على أساس من التصنيف 
النحوي للكلمات والعلامات الخاصة بالتعبيرات اللغوية اسم أنماط التركينب 
النحوي (اختصار! الأنماط النحوية). إلا أن مزيدا من الدراسة قد أثبت أن 
ترتيب الكلمات Ley‏ يتوافق مع أنماط التركيب التحوي يُعَدُ شرطا ضروريًا 
لتكوين التعبيرات الاسمية الأساسية ولكته ليس شرط اكتفاء يمكن الاس تغناء 
بوجوده عن الشروط الأخرى. فالتعبيرة اللغوية عندما يتوافق ترتيب كلماتها 
مع نمط التركيب النحوي قد لا تكون تعبيرة اسمية أساسية» وينقسم هذا النوع 
من التعبيرات إلى الحالتين التاليتين: 
١‏ - عدم وضوح الحدود: ففي داخل الجملة توجد بعض الكلمات التي 
يتوافق ترتيبها داخل الجملة مع أحد أنماط التركيب النحوي. وهذه 
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الكلمات بهذا الترتيب قد ينطبق عليها USS‏ نحويء وقد لا ينطبق. 


انظر المثالين التاليين: 
مثال :١‏ 


技术 改造 是 国营 企业 走出 困境 的 出 路 o 

أزمتها" [تعبيرة اسمية أساسية [(baseNP)‏ 

مثال ۲: 

IBM 公 司 宣布 全 面 降低 个 人 电脑 的 销售 价格 o 

"أعلنت شركة آي بي إم IBM‏ عن تخفيض شامل في أسعار 
الحاسبات الشخصية" [تعبيرة غير اسمية]. 

ففي المثال الأول» نلاحظ التعبيرة "107/48 ٠۷/238‏ وفي المشال 

s 

الثاني التعبيرة "76/۷ ٠" #[/N‏ كل Le‏ مع نمط التركيب 
النحوي للتعبيرات الاسمية الأساسية كما يلي: ,BaseNP 一 V+N‏ إلا أن 
الأولى ied‏ تعبيرة اسمية أساسية cbaseNP‏ أما الثانية فليست تعبيرة اسمية 
فحسب» وإنما لا تندرج تحت أي نمط نحوي معروف.. وبعبارة أخرى فإن 
كلا من كلمتي EA y PAS a AE"‏ "أعلن" المتجاورتين في المثال الثاني 
تنتميان إلى المسند إليه والمسند على التوالي» ولا يمكن أن يضمهما حدود 
تركيبية لتعبيرة لغوية واحدة. 
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-١‏ اختلاف نوع التعبيرة اللغوية: قد يتواجد داخل الجملة تسلسل 
للكلمات يتوافق في ترتيبه مع ترتيب بعض الأبنية النحوية» إلا أن 
هذا التسلسل قد يكون تعبيرة اسمية أساسية؛ أو نوعًا آخر من 
التعبيرات اللغوية. انظر المثالين التاليين: 

| ‘ote 
今年 /T 大 学 /N 毕 业 生 /的 /U 就 业 /V 形 式 /N 严 峻 /Ao 

'ظروف توظيف خريجي الجامعات هذا العام صعبة للغاية”. 

| :٤ مثال‎ 
中 国 /N 人 民 /N/ 银 行 /N/ 今 天 /宣布 V 降 低 N 利 率 /No 

أعلن بنك الشعب الصيني اليوم عن تخفيض سعر الفائدة". 


ترتيب الكلمات في 就 业 V 形 式 /N ohal‏ "ظروف توظيف“ 


"降低 /V 利 率 /N'，‏ الفائدة" يتطابق مع أحد أنماط التعبيرات 
الاسمية الأساسية ظلاع85ط وهو النمط BaseNP ¬۷ +N‏ إلا أن 
التعبيرة الأولى تعبيرة اسمية أساسية» LÍ‏ الثانية فتعبيرة فعلية. 


وقد قتّم المرجع OI‏ تعريفا بالخطوتين اللتين اتبعهما العالم جاو جوين 


بشأن التَّعَرُف على التعبيرات الاسمية الأساسية كما يلي: 


(أ) من ذخيرة استرشادية سبق ترميز التعبيرات الاسمية الأساسية بها 
يدويًا ومن دون الاعتماد على السياق يتم استخراج أنماط التراكيب 
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النحوية للتعبيرات الاسمية» ومن النصوص موضع الدراسة 
التجريبية يتم ترشيح التعبيرات الاسمية baseNP‏ التي يتطابق 
ترتيب الكلمات بها مع ما تم استخراجه من الذخيرة الاسترشادية؛ 
(ب) الاستعانة بمنهجية اكتساب طرق التحويل في استخراج التعبيرات 
الاسمية baseNP‏ اعتماذا على القواعد المتعلقة بالسياق» ومن هنا 
يمكن الحكم أن تراكيب الكلمات التي تم ترشيحها هي تعبيرات 


sai‏ استخراج أنماط التركيب النحوي للتعبيرات الاسمية 
ينقسم استخراج أنماط التركيب النحوي إلى الخطوتين التاليتين: 
-١‏ إنشاء ذخيرة لغوية تحتوي ترميزا يدويًا للتعبيرات الاسمية 
الأساسية .baseNP‏ 
-Y‏ عمل انتخاب مبدئي لأنماط التجمع بين كلمات الذخيرةء وإنشاء 
مجموعة من أنماط التركيب النحوي الأساسية وفقا للمعلومات 
الإحصائية الموجودة بالذخيرة اللغوية موضع الدراسة. 
)١‏ ترميز التعبيرات الاسمية الأساسية baseNP‏ داخل الذخيرة 
وصل حجم الذخيرة اللغوية التي رمّزها جاو جوين بطريقة يدوية إلى 
. مائة ألف كلمة تم تمييز حدود كلماتها وإضافة رموز للتصنيف النحوي لها ' 
é‏ وقد اعتمد على تعريف التعبيرات الاسمية الأساسية بالإضافة إلى 
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مجموعة المعايير التالية في عمل الترميز اليدوي للتعبيرات الاسمية الأساسية 
في تلك الذخيرة. وقد استبْعد من هذه القواعد لاستخراج التعبيرات الأسمية 
كلا من التراكيب التي تحتوي الأداة المساعدة "9" والتعبيرات التي تحتوي 
حروف العطف مثل OF"‏ و"ل". وى“ UR" y‏ والفاصلة القصيرة 
cM!‏ والكلمات المعبرة عن الزمن» والضمائر» وحروف الجرء بالإضافة 
إلى التراكيب المُكوّنة من الأعداد والكلمات الكمية؛ وما إلى ذلك. 


baseNP الأنماط النحوية الأساسية للتعبيرات الاسمية‎ (Y 

على أساس من التصنيف النحوي للكلمات والمعلومات الخاصة 
بمقاطعها الصوتية قام alal‏ جاو جوين باستخراج عدد 407 نمط تركيب 
نحوي لتعبيرة اسمية أساسية من الذخيرة التي سبق ترميزها يدويًا؛ التي 
اعتبرها بمثابة ذخيرة استرشادية» ومن بين هذا العدد كان هناك عدد “٤‏ 
نمطا تكرر ظهوره داخل الذخيرة أكثر من خمس مرات» بما يُغطي نسبة 
5 من التعبيرات الاسمية الأساسية داخل الذخيرة. وقد aiH‏ جاو 
جوين على ال 54 نمطا المشار إليها اسم أنماط التركيب النحوي الأساسية. 
shit‏ الجدول التالي رقم Vaje ٠١-٠١‏ لأهم أنماط التركيب النحوي 
الأساسيةء وتتكون العلامات All‏ أمام كل تركيب نحوي من جزأين: 
الأول مكتوب بالحروف الإنجليزية الكبيرة للتعبير عن التصنيف النحوي 
للكلمةء والثاني عبارة عن رقم ملاصق للحروف يشير إلى عدد الرموز 
)1( الفاصلة القصيرة إحدى علامات الترقيم التي تتفرد بها اللغة الصينية peda Sy‏ في 

الفصل بين العناصر المتساوية في الرتبة داخل الجملة الصينية. (المترجم) 
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المكونة للكلمة. على سبيل المثال: نمط التركيب النحوي baseNP‏ الذي 
يحتوي العلامات i "NG2+VN2"‏ عن كلمة اسمية AY Se‏ من مقطعين 
٠‏ صوتيين يشار إليها بالعلامة (NG2)‏ ومَصندر UES‏ من مقطعين صوتيين 
يشار إليهما بالعلامة (VN2)‏ 


جدول :)١١-5(‏ الأنماط النحوية الأساسية للتعبيرات الاسمية ومكوناتها 



































ee 
NG2+NG2+VN2 0 ع‎ VN24NG2 
alee NG2+VN2+NG2 sala es | VGN2+NG2 
lee NER ل‎ 7 | VG02+NG2 
| ERE 站 د‎ S2+NG2 
عن ممعي‎ NG2+NG2+VG02+NG2 | 0157 病毒 XCH+NG2 














وقد أظهرت الإحصائيات أنه إذا تم ترميز جميع التراكيب التي تتطابق 
مع أنماط التركيب النحوي على أنها تعبيرات اسمية فسوف يكون معدل 
التغطية حوالي AAA T‏ إلا أن نسبة الدقة في التمييز لن تتعد DEA, O‏ 
وهذا يشير إلى أن الاكتفاء بالاعتماد على الأنماط المُتحرئرة من السياق لا 
يحل عملية الغموض في تمييز حدود التعبيرات الاسمية الأساسية وأنواع 
التعبيرات اللغوية. 
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رابعا: قواعد تمييز التعبيرات الاسمية اعتمادًا على السياق 

ps‏ العالم بريل (Brill)‏ منهجية اكتساب طرق التحويل التي يتم دعمها 
من خلال الخطأ[101]» وقد سبق أن قام العالم رامشاو (Ramshaw)‏ بتطبيق 
هذه المنهجية في تمييز حدود التعبيرات اللغوية داخل النصوص 
الإنجليزية[102]. وقد استعان جاو جوين بمنهجية اكتساب طرق التحويل 
الخاصة ببريل في استخراج القواعد التي تمکن من تمييز التعبيرات الاسمية 
الأساسية اعتمادًا على السياق. ويوضح الشكل التالي رقم V-o‏ طريقة 
الحساب التي يتم على أساسها تمييز التعبيرات الاسمية اعتمادًا على السياق: 
شكل (ه-"): رسم توضيحي يبين أنماط تمييز التعبيرات الاسمية baseNP‏ 

اعتمادًا على قواعد التحويل 


DEE] 
BaseNP للنعببرة الاسمية‎ 
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فالبداية تكون عن طريق عمل ترميز مبدئي للتعبيرات الاسمية 
. الموجودة في النص الذي يتم إدخالها وفقا لأنماط التركيب النحوي للتعبيرات 
الاسمية» ثم تقارن نتيجة الترميز ز المبدكي مع النتيجة الضحيحة؛ وذلك من 
أجل اكتشاف الأخطاء في عملية الترميز المبدئي. ومن هنا يتم الاستدلال 
على أنماط القواعد التحويلية المرتبطة بالسياق مقدمًا. ág‏ تلك القواعد 
في عمل تحويل لنتائج الترميز الحالية بأكملهاء بالإضافة إلى تخزين القواعد 
الجديدة التي تم التوصل إليها حسب أولوياتها ضمن مجموعة القواعد التي 
Sila E EAEN OIA‏ السابقة يكم ale‏ من EAD‏ هس انف 
القواعد التحويلية المتعلقة بالسياق واحدة تلو الأخرى. خلاصة القول: إن 
منهجية التعلم التحويلي هذه تتكون من ثلاث وحدات: 


)١‏ وحدة الترميز المبدئي 

حيث يتم الاستعانة بالنماذج الأساسية في عمل ترميز SY‏ للتعبيرات 
الاسمية5لاءوهط » وقي هذه المرحلة يتم الحصول على مجموعة من 
التعبيرات الاسمية المٌرشحة. وتكون Jal ye‏ الترميز كما يلي: 

يتم تسجيل رتبة كل كلمة من محتوى gaill‏ على النمط W‏ كما ES‏ 
لكل كلمة علامة التصنيف النحوي الخاصة بها على oi hall‏ وبذلك يتحول 
النص المدخل إلى سلسلة العلامات التالية: 


Wi /Wty Wty Wy بتار أ‎ ywn by 
إذا كانت مثل هذه القاعدة غير السياقية موجودة ضمن الأنماط‎ 


الأساسية فإنه يتم التعامل مع سلسلة الكلمات على أنها تعبيرة اسمية على 
النمط التالي: 





tt, baseNP. 


بالإضافة إلى وضع ترميز 3 ‘ لعناصر تلك Lal‏ ل W,/t,...W; t;‏ 
على أنها تعبيرة اسمية -baseNP‏ على سبيل المثال: 


国 INF 学 者 ING 提 出 NGN 一 /MX 种 IQN 


(| 
概率 ING 标 引 NN 方 法 ING。/。 
人 -站 


كه 
ee‏ 


.ففي المثال السابق» نجد أن الخطوط الأفقية ولح و cats‏ 
إلى ست سلاسل لتعبيرات اسمية DaseNP‏ منتخيةء ولم يس يستقر منها بشكل 
نهائي إلا على التعبيرتين الموضحتين في المثال. 
(Y‏ نماذج قواعد التحويل 

US‏ نموذج من نماذج قواعد التحويل يتكون من عنصرين رئيسين»ء 
أحدهما يختص بخطوات التحويلء والآخر يختص بتحديد نقطة البداية. 
فبالنسبة إلى خطوات التحويل يتم من خلالها تحديث نتيجة الترميز التي تمت 
على النص سابقا. إن خطوات الترميز في هذه Ala yall‏ 5 تهتم بالنظر في ثلاثة 
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عناصرء أولها علامات الترميز التي تم وضعها للتعبيرات الاسمية dat jall‏ 
في الخطوة السابقة» أما ثانيها وثالثها فيختص بتأكيد الرموز المستخدمة أو 
رفضها؛ وذلك Giy‏ للخطوات التفصيلية التالية: 
(أ) خطوة التحويل الأولى: وضع علامة قبول أمام علامات الترميز 
Aah yal‏ لسلسلة الكلمات LW‏ 


(ب) خطوة التحويل الثانية: وضع علامة رفض a‏ علامات الترميز 
المرشحة لسلسلة الكلمات LW‏ 

(ج) خطوة التحويل الثالثة: رفض علامة القبول لسلسلة الكلمات LW‏ 

(د) خطوة التحويل الرابعة: قبول علامة الرفض لسلسلة الكلمات LW‏ 

: وتتوقف شروط تنشيط قواعد التحويل على الكلمتين السابقتين للسلسلة 
الكلامية بالإضافة إلى الكلمة اللاحقة لها. وهذه الكلمات المجاورة للسلسلة يتم 
النظر إلى تصنيفها النحوي وحقلها الدلالي وعدد مقاطعها الصوتية وما إلى 
ذلك من الخصائص؛ وفي الوقت نفسه يتم النظر بعين الاعتبار إلى نمط 
التصنيف الذي تنتمي إليه سلسلة الكلمات موضع المعالجة. ولمزيد من 
التفصيل نورد Lad‏ يلي عدد ال٠۲‏ شرطا المستخدمة في تنشيط قواعد 
التحويل: 
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; POS(p_)=t 
; POS(p,)=1 

, POS(p_2) =1 
; SENSE( p_,)=s 

, SENSE(P,) 

, SENSE (P-2 )=s 
SYL p) =x 

, POS(p_,)=1-AND.POS(p,) =t, 

, POS(p.,)=1,-AND.POS(p..) =t, 
POS(p.,)=t,.AND.SENSE(p_,)=s, 

, SP(W)=m.AND.POS(p_,)=t 

SP(W) =m.AND.POS(p,)=t 

SP(W) = m.AND.POS(p,)=t 

POS(p.,)=t,.AND.POS(BEGIN(W)) =t,; 

POS (pı) =t. AND.POS(END(W)) =t, 
, SENSE (P1) = 5,AND.SENSE(BEGIN(W)) = s, 

POS(p. 1) = t.AND.SENSE( p_,) = s,.AND. 

, SENSE(BEGINW)) =s, 

, SENSE(p_,) = s, AND.SENSE(END(W)) =s, 
‘POS (pı) =t.AND.SENSE( p_,) = s,.AND. 
, SENSE(END(W)) = sı 

, SENSE( p,) = s,. AND.SENSE(END(W)) = s, 






















حيث تشير W‏ فيما سبق إلى سلسلة الكلمات المٌرشحة؛ التي تخضع 
لعملية المعالجةء أما Pie Pae Pr‏ فتشير كل منها على التوالي إلى الكلمة 
5 تسبق السلسلة بمكانين» والكلمة التي تسبق السلسلة بمكان واحدء والكلمة 
التي تلي السلسلة الكلامية ۷؛ wa SYLp) ,SENSE(P) ,POS(P) Lh‏ 
f 3‏ 
النحويء والحقل الدلاليء وعدد المقاطع الصوتية على التواليء هذا بالإضافة 
إلى أنه يتم استخدام رموز الحقل الدلالي وفقا للتصنيفات الدلالية الكبرى 
والوسطى والصغرى حسب ما ورد في معجم AME)‏ المترادفات)('. 
SPO LA‏ فتشير إلى نمط التركيب النحوي الذي تنتمي إليه السلسة موضع 
المعالجةء وتشير كل من END(W) BEGINW)‏ إلى الكلمة الأولى 
والكلمة الأخيرة في السلسلة على التوالي. وبالإضافة إلى ذلكء فإنه إذا كانت 
الكلمة التي في الموضع ‏ قد انضمت لتعبيرة لغوية اسمية فيتم ترميزها 
على النمط _POS(p)= BN‏ 
وعلينا ملاحظة أن كلا من الحروف »و *» و5 في شروط تنشيط 
قواعد التحويل السابقة يشير إلى التصنيف النحوي للكلمةء-وعدد المقاطع 
الصوتيةء ورمز الحقل الدلالي على التواليء ويتم وضع تلك القيم من خلال 
التدريب العملي على نصوص فعلية. لذلك» فإنه قبل إقرار تحديد هذه 
المؤلفات المعجمية بشنغهاي» وكان الهدف الأساسي من تأليف هذا المعجم جمع أكبر 
عدد من الكلمات المترادفة وإتاحتها للعاملين في مجال الترجمة والتأليف باللغة 
الصينية. (المترجم) 
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المتغيرات JES‏ قواعد التحويل قيد انتظار التقييم. Sindy‏ مجموعة قواعد 
التحويل تلك مجموعة الاحتمالات الممكنة الخاصة بعمليات التحويل» وهذا ما 
ai‏ عليه فراغ قواعد التحويل. والهدف من تعلم عمليات التحويل واكتسابها 
هو تحديد قائمة المتغيرات الخاصة بأنماط القواعد النحوية وذلك من خلال 
ذخيرة تم ترميزها اعتماذا على العنصر البشريء الأمر الذي يحول تلك 
القائمة إلى قواعد تحويلية يمكن تنفيذها من خلال برمجية حاسوبية. ولذلك» 
فمن الضروري هنا أن Jia‏ بين مفهومين مختلفين» الأول يخص نماذج 
القواعد المستخدمة في التحويل» والثاني هو قواعد التحويل نفسها. 


(Y‏ مُتواليات!') التقييم 

حتى يمكن اختيار قواعد التحويل الأفضل بالنسبة إلى نتيجة ترميز 
الذخيرة التجريبيةء تكون هناك حاجة إلى وضع متوالية للتقييم يُمُكنها وضع 
درجات تقييمية لقواعد التحويل التي يتم التوصل إليها. فعلى فرض استخدام 
قاعدة تحويل Hob‏ لها بالرمز” في النص الذي يخضع للمعالجة حاليَاء 
فإذا كانت نسبة دقة التمييز التي تم التوصل إليها من تطبيق هذه القاعدة على 
نص آخر أعلى ما يمكنء فإن هذه القاعدة dal‏ درجة تقييم مرتفعة» بالإضافة 


)1( استخدمت كلمة ” متوالية" هنا للإشارة إلى ما يقابل كلمة function‏ في اللغة 
الإنجليزية» وتي في علوم الحاسب حزامّة من الأوامر تكتب بلغة برمجة Gath‏ مع 
برنامج متكامل للقيام بمهمة معينة» وعند استدعائها يتم تنفيذ محتواها من أسطر 
البرمجة بشكل تراتبي لتنفيذ المهمة التي صُمَمَت من أجلهاء وقد ارتضيت هذه الترجمة 
بدلا من كلمة "وظيفة” »أو OF‏ فرعي " المستخدمتين في هذا المجال» "Is gis‏ 
Lai‏ في مجال الهندسة التحليلية. (المترجم) 
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إلى ترقيتها لتنضم إلى القواعد المستخدمة في التحويل حاليًا. وبعبارة أخرى؛ 
إذا أدت قاعدة التحويل ” إلى تعديل علامات الرفض الموجودة في النص 
بعدد مرات قبول يصل إلى القيمة OO)‏ وفي الوقت نفسه أئت إلى تعديل 
علامات القبول الموجودة في النص بعدد Cl yo‏ رفض تصل إلى القيمة EC)‏ 
فإن متوالية التقييم ستعطي درجة تقييم لتلك القاعدة من خلال المعادلة التالية: 
معادلة )1-9( 

خامسًا: طرق حساب القواعد الخاصة بتعلم الترميز 

الغرض من التعرف على العمليات الحاسوبية الخاصة بتعلّم الترميز 
هو محاولة عمل توليد آلي لمجموعة القواعد السياقية التي يتم تنفيذها 
بالترتيب وذلك عن طريق الاستعانة بفراغ قواعد التحويل التي سبق التوصل 
إليها. ففي كل خطوة من خطوات العملية الحسابيةء تقوم آلية التعلم 
باستعراض جميع نماذج التحويل التي تنطبق عليها شروط التنشيط» وتقوم 
بمسح نتيجة الترميز التي تم التوصل إليها واس تبدالها بمحصلة الترميز 
الأخيرة» مع الاستعانة بمتوالية التقييم لوضع درجة لهاء واعتبار القاعدة 
التحويلية التي تحرز أعلى النتائج هي القاعدة التي يتم التوصل Legal)‏ من 
خلال تلك الدورةء هذا بالإضافة إلى Leia fed‏ حسب أولوية التوصل Lel‏ 
ضمن مجموعة القواعد LE‏ (القاعدة التي يتم التوصل إليها من خلال 
الدورة الأولي توضع في مقدمة المجموعة:» والقاعدة التي يتم التوصل إليها 
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من خلال الدورة الثانية توضع في المركز الثاني وهكذا). وبعد ذلك» تحل 
| هذه القاعدة الجديدة محل علامات الترميز الموجودة في النص موضع 
لمعالجةء وهكذا يتم الجصول:علئ ملفا جديده ثم الدخول في دورة جديدة. 
وتستمر عملية التعلم على هذا المنوالء إلى أن تعجز الدرجات التي تَحقَها 
القواعد التحويلية عن الوصول إلى قيمة معينة يتم تحديدها سابقا. وكما ذكر 
آنا تقرس القواعد التحويلية التي يتم التوصل إليها من خلال عملية التعلم 

حسب أولوية التوصل إليها؛ حيث تتصدر القواعد التي د يتم التوصل إليها 
مقدمًا القواعد التي تتحقق في المراحل التالية. فعند عمل .ترميز للتعبيرات 
الاسمية داخل نص من النصوص» ينبغي البدء باستخدام أنماط ترميز مبدئية 
لوضع رموز للنص بشكل مبدئي» ثم يتم استبدال تلك الرموزء واحدا تلو 
الآخرء بالقاعدة النهائية من مجموعة القواعد التحويلية 

Likes‏ تلخيص طرق حساب عملية تعلم القواعد التحويلية 4 LS‏ يلئ: 

على فرض أن © ذخيرة لغوية لم يتم عمل ترميز للتعبيرات الاسمية 
baseNP‏ ذخيرة تم ترميز التعبيرات الاسمية بهاء وأن TS‏ هي 
مجنوعة القواعد التحويلية Agia‏ وأن مجموعة القواعد التحويلية تكون 
فارغة في البداية أي أن: 

TS =0 

أولاً: يتم تطبيق نماذج الأبنية النحوية الأساسية للتعبيرات الاسمية في 
' عمل ترميز أوّلي للذخيرة ©؛ ومن ob‏ الحصول على نص Aa‏ يشار إليه 
بالرمز CN‏ 
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ثانيًا: تكرار الخطوات التالية إلى أن gias‏ من غير الممكن العثور 
على قواعد تحويلية or‏ وبحيث يمكن أن FIST ygi‏ (حيث تشير T‏ 
إلى قيمة محددة سابقا). 
الدورة رقم i‏ (حيث ...01,2 =( 
)١‏ مقارنة C‏ مع Ca‏ والبحث عن حالات الترميز الخاطئة "ا 
في i . .C‏ 
(Y‏ التحرك ous‏ من E"‏ في البحث Jala‏ فراغ قواعد التحويل عن 
أفضل قاعدة للتحويل cr)‏ وإعطاء r”‏ أعلى درجة تقييم كما يلي: 
r = arg max F (r),‏ 
(F‏ إضافة ""” إلى ذيل القائمة 75ء بالإضافة إلى إحلال ٠"‏ مكان C‏ 
` والحصول بذلك على JCM‏ 
سادستًا: نتيجة التجربة 
انقسمت التجربة إلى الأجزاء الثلاثة التالية: 
)١(‏ الحصول على نماذج التركيب النحوي للتعبيرات الاسمية من 
(Y)‏ الاستعانة بالأخطاء في تشغيل طرق حساب عملية التعلم للحصول 
على القواعد التحويلية للتعبيرات الاسمية اعتمادًا على السياق. 
(Y)‏ الجمع بين كل من نماذج التركيب النحوي والقواع د التحويلية 
السياقية في تمييز التعبيرات الاسمية داخل النص. 
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وقد سبق أن قدمنا نتيجة التجربة للجزء الأول» وكان ذلك في النقطة 
)1-0( من الفصل الحاليء وفيما يلي نقدم نتيجة نتيجة التجربة للجزء الثاني والثالث. 
أولاً: تجربة الحصول على قواعد التحويل السياقية 

2 

EE E Oe eae 
قاعدة تحويل من‎ ۳۸١ على القواعد التحور يلية؛ حيث تم الحصول على إجمال‎ 
ذخيرة تعلم يصل حجمها إلى حوالي خمسين ألف كلمة مع جعل القيمة‎ 
المبدئية المُحَتّدة سابقا 0- . وفيما يلي نورد عدد عشر قواعد تحويل هي‎ 
الأكثر استخداما:‎ 

-١‏ تحويل علامة الترميز المْرّشحة إلى علامة ترميز مؤكدة: 


when POS(p_,)=QN.AND.POS(P,) =. (\) 


مثال: 
اي عا 该 /公司 /NG 今年 CME NNW‏ 
承包 /VNN 合 同 /NG[。/。‏ 


"وفعت تلك الشركة في العام الحالي عقدين للمقاولات مع 
رجال أعمال أجانب". 
(Y‏ تحويل علامة الترميز المُرّشحة إلى علامة ترميز مؤكدة: 
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when POS(p_,)=CM.AND.POS(P_,) = BN 
مثال:‎ 
ceecee 2011 1 [1|111 228 
克 /NG 障 碍 物 /NG] 密 切 /A 结 合 /VGN…… 


"... التأكيد على ضرورة الجمع بين قدرة الدبابات على 
المقارمة والدفاع...". 


(Y‏ تحويل علامة الترميز المرشحة إلى علامة ترميز مؤكدة: 
when POS(p.,)=“.AND.POS(P) =”‏ 
مثال: 


这 /R 种 /QN 语 法 /NG 已 经 四 成 为 /VGN 许多 /MG 立足 /VGO 于 / 
P"/"[ 复 杂 /A 特 征 /NG]"/ 的 /USDE"/"[ 合 一 /NG 运算 /VNN]"/" 的 / 
USDE[ 形 式 化 /VNO 方 法 /NN] 的 /USDE 基 础 /NG。/。 


"أصبح هذا النوع من القواعد النحوية أساس المنهجية 
الصورية التي تعتمد عليها الكثير من طرق الحساب التي تستمد 
مقوماتها من الجمع بين الخصائص اللغوية المعقدة". 
(t‏ تحويل علامة الترميز المُرّشحة إلى علامة ترميز موكدة: 
when SENSE( p_,) = 2‏ 
مثال: 
这 /R 种 /QN 气 候 /NG 叫 做 /VGN/Ja02[ 热 带 /NG 雨 林 /NG 气 候 /‏ 


"هذا النوع من الطقس يُطلّق عليه اسم طقس a‏ 
الاستوائي المُمطر...". ش 
6( تحويل علامة الترميز المرشحة إلى علامة ترميز مؤكدة: 
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when POS(p_,)= P.AND.POS(P,)=V 


在 /P[ 上 海 /NG 战役 /NG] 结 束 /VGO 后 /F，…… 
"بعد انتهاء معركة شنغهاي...'‎ 
إلى علامة ترميز مؤكدة:‎ Aad fall تحويل علامة الترميز‎ (1 


when SENSE( p_,) = M 


许多 /MG[ 无 愧 /VGO 企 业 /NG] 将 /D 转 产 /VGO，…… 
"العديد من المشروعات الخاسرة سوف تغير نشاطها...".‎ 
تحويل علامة الترميز المُرشّحة إلى علامة ترميز مؤكدة:‎ (Y 
when POS(p_,)=M-.AND.POS(P,)=U ۰ 
مثال:‎ 


许多 /MG 地 方 /NG 分 布 /VN 着 /UT 茂密 /A 的 /USDE 热 带 /NG 雨 
PKING, << . 


"العديد من المناطق مُعَرضة لأمطار استوائية...". 
(A‏ تحويل علامة الترميز المُرشحة إلى علامة ترميز مؤكدة: 
when SENSE(p_,) = Hcl 1.AND.SENSE(END(W)) = 4‏ 


مثال: 
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”两 /MJ 国 /NG 政府 /ING 今 天/T 联 合 /DD 发 表 /VGN/Hel11 建 交 /V 
GO 公报 /NG/Dk14，…… 


"أصدرت حكومتا الدولتين اليوم إعلانا مشتركا بإقامة 
علاقات دبلوماسية...". 
4( تحويل علامة الترميز المُرّشحة إلى علامة ترميز مؤكدة: 
Dhen POS(p_,) = D.AND.POS(BEGIN(W )) = VGN‏ 
مثال: 
两 /MJ 国 /NG 政府 /NG 今天 /T 发 表 /VGN[ 建 交 VGO 公 报 /NG]‏ 


"أصدرت حكومتا الدولتين اليوم إعلانا بإقامسة علاقات 
دبلوماسية...'. 
)٠‏ تحويل علامة الترميز المُرّشحة إلى علامة ترميز مؤكدة: 
,ع when SENSE( p_,) = LeO2.AND.POS(p,)‏ 
مثال: 
hase 组 成 /VGN/Le02[ 防 /H 步 兵 /NG 火力 /NG 配 系 /NG]。/。‏ 
"... تكوين نظام gaia‏ لمقاومة نيران المشاة". 
من خلال الأمثلة السابقة» يمكننا أن نلاحظ مدى صحة الاتجاه إلى 
استنباط قواعد التحويل من خلال طريقة التعلم من الأخطاء. فلو نظرنا بشكل 
مستقل إلى إحدى القواعدء فمن المحتمل ألا تكون صحيحة بصورة كاملة 
(مثل: القاعدة الموضحة بالمثال رقم ١)؛‏ إن خطوات التحويل الخاصة بتلك 
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القاعدة لا يتم الاستعانة بها Cele‏ في بيئة التنشيط المحيطة بها. إلا of‏ كل 
قاعدة يتم النظر إليها على أنها صحيحة من حيث قدرتها: على التطبيق 
والاستخدام» وأن نسبة الخطأ الضئيلة التي يمكن أن تنشأ من استخدام تلك 
القاعدة أو غيرها في الترميز يمكن تعويضها من خلال القواعد التالية لها 
(كما حدث في المثال رقم ۷). لذلك» فإن مجموعة القواعد بأكملها تكون 
AE‏ والقواعد التي ترذ في البداية تكون أكثر عمومية؛ أما تلك التي ترد في 
مؤخرة القائمة فتكون أكثر خصوصية. 
ثانيًا: تجربة تمييز التعبيرات الاسمية baseNP‏ 
تتمثل الخطوات التي تتبعها برمجية تمييز التعبيرات الاسمية baseNP‏ 
فيما يلي: 
)١‏ الاعتماد على نماذج التراكيب النحوية الأساسية للتعبيرات الاسمية 
في عمل ترميز مبدئي للنص موضع الترميز. 
(Y‏ عمل تحويل لنتيجة الترميز في المرحلة السابقة من خلال تطبيق 
القواعد التحويلية واحدة تلو الأخرى. 
علامتان أو أكثر أمام سلسلة الكلمات؛ مثل: 


454 


سلسلة الكلمات: 


wi أ بعتي أ يديا‎ f Hj jg gf ga Î by 
| | 4 الذرميز رقم‎ 


个 个 2 ردم‎ japi 
ويتم الاحتفاظ بالترميز الأنسب وتّحذف العلامات الزائدة.‎ 


وحتى يمكن أن يتم عمل دراسة مقارنة على عمليات تمييز التعبيرات 
الاسمية cbaseNP‏ قام جاو جوين بتقسيم التجربة إلى قسمين؛ حيث يختص 
القسم الأول بنماذج التراكيب النحوية الأساسية للتعبيرات الاسمية» ومن نتيجة 
الترميز في هذا القسم يمكننا أن نستنبط الخطوط الأساسية (base-line)‏ لعملية 
تمييز التعبيرات الاسمية -baseNP‏ ومن خلال القسم الأول يتم تنفيذ 
الخطوات "١١‏ من التجربة السابقة. أما القسم الثاني من التجربة فيجمع بين 
كل من نماذج التراكيب النحوية الأساسية للتعبيرات الاسمية والقواعد 
التحويلية السياقيةء بمعنى تنفيذ خطوات التجربة السابقة ٠٠۲١‏ على التوالي. 

وتنقسم التجربتان بدورهما إلى جزأين» الأول هو الاختبار المغلق» 
والثاني هو الاختبار المفتوح» ويصل حجم النصوص التي يتم إدخالها في كل 
من التجربتين إلى عشرة آلاف كلمة. إلا أن النصوص الخاصة بالاختبار 
المغلق يتم اختيارها من ذخيرة التدريب» أما النصوص الخاصة بالاختبار 
المفتوح فيتم اختيارها من نصوص خارج نطاق ذخيرة التدريب. 
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وعند اختبار مؤشر أت الكفاءة لبرمجية تمييز التعبيرات الاسمية 
baseNP‏ تم إقرار مؤشرين للقياس هما معدل ‘PY‏ ومعدل التغطية eR‏ 
ويتم حسابهما من المعادلتين التاليتين: 


معدل الدقة: 
b‏ 
معادلة (ه-؟) 
معدل التغطية: 
c‏ 
معادلة (Y-9)‏ 


baseNP في المعادلتين إلى عدد التعبيرات الاسمية‎ a ‘guts 
. التي ميزتها البرمجية بشكل صحيح في النص موضع المعالجة» وتشير ۵ إلى‎ 
فتشير‎ cul إجمالي عدد سلاسل الكلمات التي تم الحكم أنها تعبيرات اسمية؛‎ 
إلى عدد التعبيرات الاسمية الموجودة بالفعل داخل النص موضع المعالجة.‎ 
l إلى نتيجة اختبار التجربتين:‎ ٠١-١ ويشير الجدول‎ 
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جدول (ه-15١):‏ مقارنة بين الطريقتين المستخدمتين 
. في تمييز التعبيرات الاسمية 
1 






















الطريقة التي تعتمد على الجمع | 
الطريقة التي تستخدم النماذج | بين النماذج الأساسية في 
الأساسية في التركيب النحوي | التركيب النحوي والقواعد 
نوع الاختبار التحويلية 
sa‏ 
الاختبار المغلق %۷1,۹ %YY,o‏ %41,۱ %۹,۲ 
الاختبار المفتوح %1,۷ WAVY | AY‏ | %1,۸ 














من خلال مقارنة نتيجة التجربتين السابقتين» يمكننا ملاحظة أن نتائج 
الطريقة المختلطة التي جمعت بين النماذج الأساسية في التركيب النحوي 
والقواعد التحويلية قد تفوقت بوضوح على طريقة النماذج الأساسية في 
التركيب النحوي. 
وها ولي شم i‏ من Rent‏ اميق ادي أجريت كلسي تسم 
الاختبار المفتوح (الأجزاء المكتوبة بالبنط السميك؛ التي أسفلها خط تشير إلى 
خطأ في الترميز): 








[干部 /NG 工作 /NG] 是 /VY 中 国人 民 解 放 军 /NG 依据 /P 中 国共 产 党 /NG 的 / 
USDE[ 干 部 /NG 路 线 /NG] 和 /CMI[ 政 策 /NG 管理 /VNN 军 官 ING] 和 /CM[ 文 职 /NG 
干部 /NG] 的 /USDE 工 作 /NG。/。[ 机 构 /NG 干 部 /NG 工作 /NG]，/， 原 来 DD 是 /V 
Y[ 中 国人 民 解 放 军 /NG 建设 /VNN] 的 /USDE[ 重 要 /A 内 容 ING]。/。 根 据 /P1929 
年 /T[ 古 田 /NPL 会 议 /NG 决议 /NG] 的 /USDE 规 定 /NG，/，[ 工 农 /NG 红军 /NG] 的 | 
USDE[ 军 事 /NG 干部 /NG] 由 /P[ 军 事 /NG 系统 /NG] 管 理 /VNN，/， 其 /R[ 具 体 /A 
工作 /NG]，/， 由 /P[ 司 令 /NG 机 关 /NG] 的 /USDE[ 队 列 /NG 部 门 /NG] 和 /CM[ 政 治 
/NG 机 关 /NG] 的 /USDE[ 组 织 /NG 部 门 /NG] 负 责 /VGV，/，1973 年 /TT 以 后 /F，/， 
干部 /NG 的 /USDE 任 免 ;YVNN、/、 调 配 /VNN 由 /P 各 /R 级 /NG[ 军 政 /NG 委员 会 /N 
G] 按 /P[ 任 免 IVNN 期 限 /NG] 讨 论 /VNN 决 定 /VGN，/， 有 的 /R 部 队 /NG 还 /D 在 /P 
队列 /NG 和 /CM[ 组 织 /NG 部 门 /NG] 内 /F 成 立 VGN 了 /UT 干部 科 /NG。/。 
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الفصل SSN‏ 
نماذج إزالة اللبس الدلالي للكلمات الصينية 
اعتمادًا على الفراغ الدلالي للكلمات داخل التركيب 


إن المقصود بإزالة اللبس الدلالي للكلمات (word sense‏ 
disambiguation)‏ معالجة GLAS‏ متعددة cane 4N all‏ يتم وضع كود 
دلالي لها By‏ للمحيط السياقي الذي ترد فيه. وهذا الكود الدلالي قد يكون 
عبارة عن الرقم الذي يشير إلى معنى تلك الكلمة داخل أحد المعاجم العامة؛ 
وقد يكون عبارة عن كود التصنيف الدلالي لتلك الكلمة داخل أحد المعاجم 
‘NA‏ أو الكلمة المقابلة لتلك الكلمة في معجم للترجمة؛ كما يمكن أن يكون 
شرحا لتلك الكلمة asf Jala‏ المعاجم المفهومية. وقد ساد لفترة طويلة اعتقاد 
أن موضوع إزالة اللبس الدلالي عن الكلمات هو أحد الموضوعات الصعبة 
في مجال معالجة اللغات الطبيعية. فقبل تسعينيات القرن الماضي كانت 
الدر اسات المتعلقة بإزالة اللبس الدلالي تعتمد على منهجيات الذكاء 
الاصطناعي بصورة أساسيةء وكانت الصعوبة في ذلك تكمن في حاجة هذه 
المنهجيات إلى العنصر البشري من أجل صياغة عدد هائل من قواعد إزالة 
اللبس» وسلبيات ذلك ليست ضئيلة. ليس فقط من حيث نسبة التغطية» بل إن 
هادر تلك المنهجيات كبير جدّاء وهذا ما أطلق عليه "عنق الزجاجة" في مجال 
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استخلاص المعارف من النصوص. وبعد تسعينيات القرن العشرين» دخلت 
الدراسات المتعلقة بإزالة اللبس الدلالي عن الكلمات عصرا جديدا يتخذ من 
منهجية الذخائر اللغوية منطلقا أساسيًا؛ وذلك بسبب ظهور المعاجم الآلية 
والذخائر اللغوية هائلة الحجم. 

تعتمد منهجيات إزالة اللبس الدلالي عن الكلمات المُحتواة في معاجم 
إلكترونية بصورة كبيرة على النصوص الشارحة للكلمات داخل المعاجم 
العامة؛ حيث يتحقق غرض إزالة اللبس الدلالي لكلمة بمجرد حساب درجة 
تكرار النص الشارح لمعنى محدد من المعاني المتعددة لتلك الكلمة داخل 
النص موضع المعالجة؛ وذلك مثلما jad‏ العالمان ليسك (Lesk)‏ وويلكز 
«(Wilks)‏ والذي ps‏ كل Lagia‏ منهجيته الخاصة لإزالة اللبس NA‏ 10410351 

إلا أنه عندما يكون النص الشارح قصيراء كأن يقتصر على سرد 
الكلمة المضادة أو المترادفة مع الكلمة موضع التعاملء فمن الصعب العثشور 
على معلومات تكرارية لمثل هذا النص الشارح Jala‏ النص؛ ومن ثم يؤثر 


ذلك في نتيجة إزالة اللبس. وهناك طرق أخرى تعتمد على إزالة اللبس من: 


خلال استخدام معجم التصنيفات الدلالية. وفي هذا المجال 585 الطريقة التي 
te‏ يارووسكي (Yarowsky)‏ هي الطريقة الأكثر تمثيلاً لهذا النوع من 
منهجيات إزالة اللبس الدلالي[105]. وقد اعتمدت تلك الطريقة عند حساب 
الكلمات ذات البروز الدلالي (salient words)‏ داخل النص على توزيع 


متوسط عدد مرات ظهور الكلمة متعددة الدلالة على كل تصنيف دلالي مقابل ' 


لتلك الكلمةء الأمر الذي تسبب في وجود ضجيج giles)‏ فضلاً عن 
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محدودية المادة اللغوية المستخدمة في رصد الكلمات ذات البروز الدلالي؛: 
ومن É‏ فقد كانت نسبة التغطية لهذه الطريقة محدودة Np‏ 


إن منهجية إزالة اللبس الدلالي اعتمادًا على ذخيرة لغوية؛ التي قدمها 
كل من يارووسكي (Yarowsky)‏ وبروس «(Bruce)‏ و غير ھما[107,106] 
تعتمد بصورة كبيرة على الترميز الذي يتم من خلال العنصر البشري على 
ذخيرة تدريبيةء وهذا النوع من الترميز مُكلف من حيث الوقت والمالء هذا 
بالإضافة إلى وجود مشكلة في النتائج الإحصائية تتمثل في خلخلة البيانات 
وعدم ترابطها؛ لذلك يسعى عدد من العلماء إلى بحث إمكانية التوصل إلى 
منهجيات لاستخراج المعلومات من النصوص اعتماذا على إزالة اللبس 
NY‏ غير الموجه (unsupervised)‏ إلا أن هذه المنهجيات ما زالت تقف 
حتى اليوم عند حد تجارب على نطاق ضيق لا يتعدى بضع كلمات أو بضع 
عشر كلمة متعددة الدلالة. وقد طرحت لي جوان تزي من جامعة تشين خوا 
نموذجًا لإزالة اللبس NY‏ اعتمادًا على الفراغ الدلالي للكلمات داخل 
التركيب. ونظر! إلى أن كل مجموعة مترادفات في معجم (غابة المترادفات) 
يقابلها كود واحد يمثل كل حقل دلاليء هذا بالإضافة إلى أن المجموعة 
الواحدة من المترادفات تحتوي دائمًا عددا قليلاً من الكلمات متعددة AN all‏ 
وكمية كبيرة من الكلمات أحادية الدلالة. ولذلك فمن الممكن أن نستخرج من 
ذخيرة كبيرة الحجم مجموعة الكلمات الحقيقية التي تسبق كلمة مفردة من 
الكلمات التي OG‏ مجموعة كلمات مترادفة وتلحقهاء وإنشاء برمجية تقطيع 
آلية تتخذ من مجموعة الكلمات تلك كودًا للتصنيف الدلالي. ونظرًا إلى أن 
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هذا النوع من التعلم الآلي في اكتساب المعلومات الخاصة بإزالة اللبس 
الدلالي عن الكلمات غير مُوَجّه؛ ومن «GB‏ فإن بإمكانه تقليل الكثير من 
الأعباء المالية التي يفرضها تدخل العنصر البشري في عمل الترميز الدلالي 
للكلمات داخل الذخائر اللغوية. وقد أثبتت التجارب أن أنماط إزالة اللبس 
الدلالي تلك تتميز بنسبة دقة عالية في إزالة اللبس الدلالي عن الكلماتء هذا 
بالإضافة إلى أنها تتميز بإمكانية الانتقال في التطبيق عبر أنواع الننصوص 
المختلفة. وفيما يلي نقدم تعريفا بالبحث الذي قامت به الباحثة لي جوان تزي. 


١‏ - تعريف بمعجم (غابة المترادفات) 

اعتمد مؤلف معجم (غابة المترادفات)""" (يطآق عليه اختصار! (غابة 
الكلمات) في أثناء وضع التصنيفات الدلالية GLAS‏ على الكلمة كعنصر 
اُساسي» مع الاستعانة برموز التصنيف النحوي لهاء بالإضافة إلى الاهتمام 
الشديد بالكثافة النسبية لموضوع الحديث. وهذا المعجم الخاص بالتصنيفات 
الدلالية قد قسسّم الكلمات من حيث المعنى إلى ثلاثة مستويات: مستوى 
التصنيف الأكبرء والأوسط والأصغرء وفي هذا الإطار قام بتقسيم الكلمات 
إلى عدد VY‏ تصنيفا كبيراء وعدد ٩٤‏ تصنيفا وسطاء وعدد ١478‏ تصنيقًا 
صغيراء ويضم التصنيف الصغير عدذا من الكلمات كعناوين يندرج في 
إطارها مجموعات الكلمات المترادفةء ويصل عدد تلك العناوين إلى ٠۹۲۰‏ 
عنوانا. 


. يَستخدم معجم (غابة المترادفات) الحرف اللاتيني الأول في شكله 
الكبير ككود للتصنيف الأكبرء يليه مباشرة الحرف الثاني في شكله الصغير 
ككود للتصنيف الأوسطء أما الكود الثالث والرابع في التصنيف الدلالي 
LS‏ له الأرقام العربية؛ حيث يشير كل منها إلى كود التصنيف الأصغر. 
والعناوين التي تندرج تحت التصنيف الأصغر يُسْتَحْدَمم لها ta‏ الأرقام 
العربية. على سبيل المثال الكلمة "2515" "إدراك"؛ كود التصنيف الدلالي لها 
هو "6415" Cus‏ يشير الحرف "6" في هذا الكود إلى التصنيف SY‏ 
ويضم الكلمات التي Ss‏ عن "لنشاط النفسي" أما الحرفان "Ga"‏ فيشيران إلى 
التصنيف الأوسط ويضم الكلمات التي i‏ عن "الحالة النفسية", أما كود 
التصنيف الأصغر فهو "6215©؛ وهكذا يتم التعبير عن ذلك في المعجم كما 
يلي: 





Gls 醒悟 懂事 — 
EEE A RRR KER A... 


懂事 EFL FE BF 


أي أن "Gals SII‏ يضم تحته كلمتان تعبر كل منهما عن عنوان 
لمجموعة من المترادفات هما "845" “HERE y LAN‏ 'فهم". لذلك فإن الكود 
الدلالي الكامل لكلمة REE"‏ 'إدراك" هو 61501 وهذا GY‏ هذه الكلمسة 
وقعت في الموضع الثاني في قائمة المترادفات. 
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is‏ إلى أن المداخل الدلالية في معجم (غابة المترادفات) تتخذ من 
الكلمات المفردة baa g‏ لهاء فإن الكلمات متعددة الدلالة تأخذ Vlg Si‏ مختلفة 
وفقا لمعانيها. على سبيل المثال الكلمة "APP‏ لها ثلاثة مداخل دلالية في 
معجم (غابة المترادفات) كما يلي: 

)0( مادة تدخل في صناعة منتج. 

(Y)‏ مادة مرجعية تدخل في تأليف كتاب أو مواد علمية يتم تقديمها 

بغرض الاطلاع. 
aat (r)‏ للكناية عن بعض الأشخاص الذين يصلحون لأداء مهمة 


معبنه. 


وهذه المعاني يقابلها الأكواد التالية على التوالي: “Ba06‏ 0)17“ 
."A103'‏ 

وفي أثناء إزالة اللبس الدلالي عن كلمة AP‏ يتم وضع الكود 
المناسب لها وفقا للسياق الذي يظهر معها داخل النص. 

وكما سبق أن أشرنا نجد أن منظومة ترميز التصنيفات الدلالية داخل 
معجم (غابة المترادفات) عبارة عن تركيب شجري كما يتضح من الشكل 


Pe 
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شكل (4-5): التركيب الشجري لمنظومة أكواد 
التصنيفات الدلالية بمعجم ((غابة المترادفات)) 


التصنيف الأكير )12( 
التصنيف الأوسط )94( 


التصليف الأصغر )1428( 





التصنيف الأصغر الفر عي )3925( 


وفي الحقيقةء إن الكلمات التي ضمها معجم (غابة المترادفات) يضم 
عدد 50154 مادة موزعة ما بين الكلمات بشكل أساسيء بالإضافة إلى 
بعض التعبيرات اللغوية والأمثال والكلمات المأثورة. ويوضح الجدول رقم 
١5-5‏ توزيع الكلمات متعددة الدلالة Jala‏ معجم (غابة المترادفات)؛ التي 
يصل عددها الإجمالي إلى ۷٤١١‏ كلمة وتشغل نسبة MEN‏ والجدير 
بالذكر أن ما يقرب من نصف عدد الكلمات أحادية المقطع؛ التي يصل عددها 
إلى ۳۷۷١‏ كلمة Ley‏ يمثل 961,57 من العدد الكلي للكلمات التي ضمها 
المعجم (عدد ۱۸١١‏ كلمة)» هي كلمات متعددة الدلالة؛ وبالمقارنة نجد أنه 
من بين 457378٠١ ate‏ كلمة متعددة المقطع؛ يوجد نسبة %١١,١‏ كلمة متعددة 
الدلالة. | 
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جدول (ه-5١):‏ توزيع الكلمات متعددة الدلالة في 
معجم (غابة المترادفات) 
















| كلمات أحادية لمعنى 
كلمات متعددة المعنى 
الإجمالي 

إن درجة الصعوبة أو السهولة في مهمة إزالة اللبس الدلالي عن 
الكلمات يُمْكن أن تظهر من خلال استكشاف الذخيرة. فعلى سبيل المثال» قد 
نجد أن ما يقرب من %٤١‏ من إجمالي عدد كلمات الذخيرة عبارة عن 
كلمات لها أكثر من معنى. وكما سبق أن أشرناء فإن التصنيفات الدلالية في 
معجم (غابة المترادفات) قد استعانت بالتصنيفات النحوية للكلمات» على سبيل 
المثال نجد أن التصنيفات الكبرى التي تشير إليها الحروف من 0-۸ تندرج 
تحت تصنيف الأسماءء أما الأرقام والكلمات الكمية فتندرج تحت التصنيف 
الأوسط وتأخذ الحرفين Dn‏ والحرف E‏ يشير إلى.الصفات» أما الحروف 
من 3-7 فتشير إلى تصنيف الأفعال. لذلك فإنه بالنسبة إلى نص قد سبق 
تمييز حدود الكلمات به وترميزها من حيث التصنيف النحوي» فإنه يمكن 
تمييز معنى عدد غير قليل من GLAS‏ متعددة الدلالة Bhp gall‏ ية رهما 
للتصنيف النحوي لتلك الكلمات: وتشير البيانات الإحصائية أنه بعد إزالة 
اللبس عن التصنيف النحوي للكلمات» انخفض عدد الكلمات متعددة الدلالة 
داخل الذخيرة من 5 إلى MVE‏ وقد قلت نسبة تواجدها داخل الذخيرة 


%۸۷,۹ éa Vo) 
VET 20Y1 oya 
o. joé %1 ۰ CITA 

















EF Ja 
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۲- التعبير عن فراغ المُتّجَهات في معجم ((غابة المترادفات)) 

"يمكنك معرفة معنى الكلمة من خلال الكلمات المصاحبة لها" هذا ما 
قاله alle‏ اللغة فيرث (Firth)‏ عند وصفه لطريقة تمييز معنى الكلمة. 
Shel‏ بذلك أن معنى الكلمة لا يمكن الاستدلال عليه إلامن خلال 
الاستخدام. وعلى هذاء فإن استطلاع السياق المصاحب لكلمة ما في كل مرة 
من مرات ظهورها داخل ذخيرة لغويةء LS‏ من الحصول على معاني تلك 
الكلمة من خلال العلاقات التصاحبية بينها وبين الكلمات الأخرى. ولا يقتصر 
الأمر على أن لكل كلمة مجموعة العلاقات التصاحبية التي ترد معها فحسب» 
بل إن الكلمة الواحدة تختلف مجموعة التصاحبات التي ترد معها كلما 
اختلف معتاها. 

ونظر! إلى أن معنى كلمة ما يمكن وصفه من خلال مجموعة الكلمات 
التي تظهر معها (باختصار علاقات. التصاحب)ء لذلك فمن الممكن اس تخدام 
مُتَجّه متعدد الأبعاد في التعبير عن معنى محدد للكلمة. وقد قامت لي جوان 
تزى بتعريف هذا النوع من المتجهات بأنه Agile‏ دلالة الكلمة. وبمزيدمن 
التفصيل فإن ANa ate‏ الكلمة يتكون من مجموعة من العناصرء وكل 
عنصر من هذه العناصر يمثله كلمة من الكلمات الحقيقية التي تتصاحب مع 
الكلمة متعددة الدلالة؛ ويمثل هذا apial‏ أحد أبعاد الفراغ الدلالي للكلمة. 

وعند التفكير في متطلبات تنفيذ هذا المشروع؛ من المفضل تحديد 
"السياق" المصاحب لدلالة الكلمة على أنه مجموعة الكلمات الحقيقية التي ترد 
قبل هذه الكلمة أو بعذهاء التي Jo‏ لموضعها بالرمز d‏ وعلى هذا فإن 4+ 
Gib}‏ عليها نافذة الاستقراء التي ARES‏ في استطلاع التصاحبات اللغوية. 
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ونظرا إلى أن هذه المجموعة من الكلمات الحقيقية تختلف في قدرتها على 
الظهور في إطار الفلك الدلالي للكلمة موضع الدراسةء فإن هناك ضرورة 
لاستخدام وزن she’s (weight)‏ لكل كلمة حتى يمكن تمييز قدرة كل واحدة 
منها. وقد عرفت لي جوان تزي وزن الكلمات الحقيقية التي تمثل CA‏ 
الدلالية للكلمة على أنه احتمال تصاحب الظهور بين الكلمات الحقيقية “i‏ 
ودلالة كلمة معينة S‏ ويرمز لهذا الوزن بالرمز POD‏ ويبدو من ذلك أن 
وزن الكلمات المصاحبة لدلالة الكلمة PO)‏ يمكن تقدير قيمته من خلال 
إجراء بعض العمليات الإحصائية على ذخيرة لغوية. 

ومن خلال التعديل السابق نجد أن كل عنصر من العناصر المُكوّنة 
Cl‏ دلالة الكلمة ۷ يمكن الإشارة aul‏ باستخدام احتمال تصاحب الظهور 
P(S,x;)‏ , أي أن cll _ Vx, = P(s,x;)‏ ففي ER‏ الأمر 3 A‏ الدلالي 
للكلمة يساوي قيمة حقيقية Aad‏ متعدد الأبعادء وهذا AKTAN‏ الدلالي عبارة 
عن مجموعة المتّجَهات التي SS‏ الفراغ الدلالي للكلمةء Gibby‏ عليه أيضنا 
اسم فراغ A‏ الحقيقي متعدد الأبعاد. 

هذا ويعتمد الوصف السابق لمعنى الكلمة على مرجعية الفرضين 
التاليين: 

[الفرض الأول] إذا تساوت دلالة كلمتين» فإن ذلك يؤدي إلى تساوي 
الكلمات التي تتصاحب معهما في السياق النصي. وإذا استخدمنا CA‏ 
الدلالي في التعبير عن السياق المصاحب لهاتين الكلمتين» فسوف يكون هناك 
تقارب في المسافة بين الفراغ الدلالي لهما. 
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[الفرض الثاني] هناك عدد من الكلمات تتشابه أو تتقارب في المعنىء 
وهذه الكلمات تظهر كأنها انتلاف من النقاط المتجاورة من حيث قيمة الفراغ 
الدلالي الذي يمثلها. 

ومدى موثوقية الفرض الثاني يمكن إثباتها من خلال صفة التعنقد التي 
تتميز بها دلالات OLAS‏ والغرض من ذلك هو اختبار مدى التطابق بين 
نظام التصنيف الدلالي المُتَبّع في معجم (غابة المفردات) وبين مجموعات 
الكلمات المترادفة (متقاربة المعنى) التي يتم الحصول عليها من خلال 
الفرض الثاني والذي يمثل صفة التعنقد للكلمات المترادفة والمتقاربة في 
المعنى. وقد صمّمّت لي جوان تزي تجربتها كما يلي: يتم اختيار أي 
مجموعتين من الكلمات A‏ 8 من معجم (غابة المترادفات)؛ حيث تمثل كل 
Lagia‏ فئة دلالية أصغرء وبشرط أن تتساويا من حيث التصنيف النحويء 
وعلى فرض أن كلا من ١6ء‏ و Ca‏ تشيران إلى قائمة الكلمات الكاملة التي 
تندرج تحت المجموعة A‏ و8 على التواليء أي أن: 

C, = {WA,,WA,,...,WA,,} 
C, = {WB,,WB,,...,WB, } 

حيث تشير WAG ht)‏ إلى كلمة أحادية المعنى في المجموعة / 
وتشير 2771719 إلى كلمة أحادية المعنى في المجموعة Liig. B‏ 
لمبادئ تكوين المّتّجه الدلالي للكلمات؛ يمكننا الحصول على GEA‏ الدلالي 
لأي كلمة ye MV)‏ الكلمات سالفة الذكر داخل ذخيرة كبيرة الحجم. ثم يتم 


469 


إعادة تصنيف جميع الكلمات التي تقع في إطار مجموعتي الكلمات 
C=C UC‏ من حيث مدى تقارب المسافة بين مُتّجَهاتها أو تباعدهاء وقد 
هرت نتيجة التعنقد أن مجموعتي الكلمات eC‏ و2© تحتويان 
66 - ©, بالإضافة إلى أن @= gccnc‏ كانت LS‏ من Ci‏ 
و2© متطابقتان لدرجة معينة مع كل من Ce g eCa‏ فإن هذا يعني أن 
الفرض الثاني فرضًا صحيحا. 

عند استخدام طريقة حساب المسافات الأقصر السابق ذكرها؛ التي تتخذ 
الاتجاه من أسفل إلى أعلى عند إجراء عملية جمع التصنيفات» تكون البداية 
أن نضع الكلمات التي تندرج في القائمة C‏ التي يزيد عدد مرات تكرارها 
عن مائة مرة في المجموعة © والمجموعة C2‏ ثم نقوم بتكرار عملية جمع 
التصنيفات بالطريقة نفسها على الكلمات التي تكررت بعدد مرات أقل. 

وصل نطاق الذخيرة المُستَخدّمة في تجربة جمع التصنيفات إلى VY‏ 
٠‏ ميجا بايت. ويحتوي الجدول ٠١-١‏ أزواج أكواد التصنيف الدلالي 
المستخدمة في التجريةء بالإضافة إلى معلومات عن معدل تكرار تلك الأكواد 
داخل الذخيرة. ويعرض الجدول ٠١-١‏ نتيجة التجربة. وقد تم حساب معدل 
التوافق بين كل من التصنيف الدلالي للكلمات القائم على AANA CS‏ 
وأكواد التصنيف الدلالي المستخدمة في معجم (غابة المترادفات) من خلال 
المعادلة التالية: | 
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عدد الكلمات المشتركة بين نتيجة التصنيف باستخدام المُتّجّهات الدلالية 
بحل لفقت وبين أكو اد معجم ((غابة المترادفات)) 
عدد الكلمات الكلي في القائمة © 











جدول )10-0(: نماذج من أزواج الأكواد الدلالية 
المستخدمة في معجم ((غابة المترادفات)) 


وعدد مرات ظهورها في الذخيرة 









































أزواج أكواد | عند a | sti‏ الكلي \ أكبر من أكبر من | أكبر من 
. التصنيف 四 | Au‏ 0 
| ْ 
Hc11/Hc03‏ 18/17 6538/6005 7/6 9/9 11/13 
9 1 16/16 3954/3415 | 4/5 .| 5/6 8/10 
He11/Hi03‏ 18/17 6165/6005 5/6 7/9 13/13 
Aa03/Aec07‏ 20/15 6735/6800 ` 4/6 4/6 9/10 
Dil0/Di08‏ | 28/27 11531/12017 | 8/8 9/11 3/20 
Ed29/Ed11‏ 17/15 4054/3534 3/2 | 6/3 10/8 
Ed16/Ef08‏ 17/14 2656/2599 3/1 4/2 | 8/5 
Gb15/Hj20 |‏ | 6/7 2003/2303 2/4 3/4 5/6 




















حيث تعني "أزواج IÍ‏ التصنيف الدلالي" في الجدول السابق زوج 
التصنيف الدلالي الذي يتم اختياره من معجم (غابة المترادفات)» Lid‏ 'عدد 
المفردات أحادية الدلالة" فيعني عدد الكلمات التي لها معنى واحد داخل قائمة 
المترادفات التي يمثلها كل كود من أكواد التصنيف الدلالي» أما "العدد الكلي 

ت" فيعني العدد التراكمي الذي يمثل مرات ظهور هذه الكلمات أحادية 
المعنى داخل الذخيرة» أما "أكبر من "٠٠١‏ فتعني عدد الكلمات أحادية المعنى 
داخل كل تصنيف دلالي؛ التي يتجاوز عدد مرات ظهورها مائة مرةفي 
الذخيرة» والباقي من عناوين الأعمدة على القياس نفسه. 
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جدول (ه-15): معدل التوافق بين نتيجة التصنيف 
وأكو اد معجم (غابة المتر ادفات) _ ١‏ 


















































أزواج أكواد T‏ أكبر من ام كير من | أكبر من ٠١‏ | متوسط معدل | 
| التصنيف الدلالي | فرظ — .دمرة | مرات 1 التوافق ٠‏ 

AET %1 %1 %1۰ Ba06/Da19 

T = = 十 

%AY,oe MAL, f %۹,۰ %۹۰, Aa03/Ae07 

%70,0 %۷5,۸ %10, | Aayo | Di10/Di08 
%AE WAIA | %Ae 人 和 %1۰ Gb15/Hj20 | 
%14,۳ AvE | Aag %۹,۹ Hel1/Hi03 | 

YY, %41,۷ CAER %1.۰ Hec11/Hc03 

%۸1, AAY, Y %1.۰ VARI | Edi6/Ef08 

53 9/١“ PAT | Are’ | os | Eq29/Ef11 

ma YALA %۹۰,6 %41,۱ مقو معدل‎ 

d | | التوافق‎ 





وتشير نتيجة التجربة إلى أنه: 

)١(‏ إذا نظرنا إلى التصنيف الدلالي للكلمات أحادية المعنى التي يزيد 
ase‏ مرات ورودها في الذخيرة عن ٠‏ مرة وفقا لقرب المسافة 
بين lea‏ الدلالية لهذه الكلمات أو بُعدهاء نجد أن ما يزيد عن 
۰١‏ من هذه الكلمات يتوافق La‏ مع معجم (غابة المترادفات) ؛ 
Cus‏ وصل متوسط معدل التوافق إلى LÍ WAN‏ الكلمات التي 
تجاوز عدد مرات ظهورها ٠١‏ مرة» فقد كان من بينها SAS)‏ من 
WAY‏ يتوافق مع معجم (غابة المترادفات)» وقد كان متوسط معدل 
التو افق لهذه الفئة 9030,54. وهذا يعكس مصداقية الفرض الثاني. 
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(Y)‏ )13 نظرنا إلى متوسط معدل التوافق بين نتيجة التصنيف الآلية 
وتصنيف معجم (غابة المترادفات)ء نجد أن الكلمات التي لها معدل 
تكرار أعلى تتفوّق بوضوح على الكلمات التي لها معدل تكرار 
أقل. والسبب في ذلك يرجع إلى أنه كلما زاد عدد مرات ظهور 
dls‏ أصبحت البيانات الإحصائية أكثر مصداقية» فضلاً عن 
اقتراب مؤشرات le‏ الواقع» وبالطبع يزداد 
متوسط معدل التوافق مع معجم (غابة المترادفات). 

(Y)‏ وبصورة عامة» فإن نتيجة التصنيف الناتجة عن أزواج الأكواد 
التي تنتمي إلى تصنيفات دلالية كبرى مختلفة تكون أفضل من 
نتيجة التصنيف لأزواج من الأكواد تنتمي إلى تصنيفات دلالية 
كبرى متشابهة» على سبيل المثال: 8206/9819 أفضل من 
7 وهذا يدل على أنه كلما زاد التباين بين أكواد 
التصنيفات الدلالية في معجم (غابة المترادفات)؛ Cd)‏ المسافة بين 
الفراغ الدلالي للمتجهات الدلالية التي تمثل هذه الأكواد؛ ولذلك فمن 
السهل الحفاظ على مقدار من التوافق بين نتيجة التصنيف الآلية 
وبين تصنيف معجم (غابة المترادفات). وما ينبغي التأكيد عليه هو 
أن المرجعية التي اعتمد عليها معجم (غابة المرادفات) في وضع 
أكواد التصنيفات الدلالية التي تصنف مجموعات الكلمات المترادفة 
هي الرؤية الذاتية أو الحس اللغوي لعلماء اللغة؛ أما تكوين 
المُتّجّهات الدلالية للكلمات فتعتمد على تصاحب الظهور بين 
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الكلمات داخل النصوص؛ بالإضافة إلى أن ذلك يتم من خلال 
استقراء ذخيرة نصوص ذات نطاق واسع» وهذا يشير إلى أن 
المنهجيتين مختلفتين بشكل كلي. إلا أن نتيجة التصنيف الدلالي التي 
توصل إليها الحاسب الآلي عن طريق قياس المسافة بين CURLY‏ 
الدلالية للكلمات كانت متطابقة إلى حد كبير مع نتيجة التصنيف 
الدلالي لمعجم (غابة المترادفات). وهذه الحقيقة تشير إلى منطقية 
الفرضين اللذين قدمتهما لي جوان تزي عن الوصف الدلالي 
للكلمات» هذا بالإضافة إلى أن الحس اللغوي لعلماء اللغة يمكن 
قياسه عند حدود معينة. 
وخلاصة ما سبق أن أية مجموعة من الكلمات المترادفة Liila‏ ما 
تحتوي عدذا من الكلمات أحادية الدلالة» وأن استخراج الكلمات الحقيقية التي 
تتصاحب مع هذه الكلمات أحادية الدلالة في ذخيرة واسعة النطاق “yd‏ يمكن 
تحقيقه Lil‏ بعيدا عن تدخل العنصر البشري بصورة كاملة. إضافة إلى ذلك 
Gis‏ للفرض الثاني» فإن مجموعة الكلمات المترادفة (أي تلك التي يكون لها 
كود دلالي واحد) دائمًا ما يمكن استخدام مجه دلالي واحد يشير إليها. وهذا 
anal‏ الدلالي هو مركز Clg‏ التي توضع لجميع الكلمات أحادية الدلالة 
في مجموعة الكلمات المترادفة. 
HL eal doe A‏ ا 
الحقيقية المصاحبّة؛ التي يُشار إليها بالرمز (5: GEL.‏ حيث تشير 7 إلى 
عدد الأبعاد التي ds‏ فراغ id‏ فعلى فرض أن 4 تشير إلى الكلمات 
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أحادية ANA‏ الموجودة في مجموعة CLUS‏ مترادفة» فإن القيمة الموجودة في 
ag‏ الفرعي © يمكن حسابها من خلال قيمة المتوسط الحسابي لمجموعة 
احتمالات PWS)‏ بي الكلمات أحادية الدلالة والكلمة 67% كما يلي: 
بين جميع و 
P‏ 
نامرج Ys Tai‏ 


eh 

حيث تشير |4| إلى إجمالي عدد الكلمات في قائمة الكلمات أحادية 
الدلالة A‏ أما ” فتشير إلى أية كلمة في القائمة „A‏ 

وقد قامت لي جوان تزي بتكوين مُتّجهات للتصنيفات الدلالية الصغرى 
في معجم ((غابة المترادفات)) من خلال ذخيرة حجمها VY‏ ميجا بايت Es‏ 
من نصوص جريدة الشعب اليومية؛ وقد قامت بتكوين فراغ دلالي من هذه 
ileal‏ الدلالية. وقد كانت المسافة قصيرة بين KEAN‏ الدلالية للكلمات 
المتقا ربة في المعنى وسط هذا الفراغ الدلالي. ومن ثم؛ تكوّنت متجهات 
دلالية Jas‏ عن تلك الكلمات متقاربة المعنى؛ بالإضافة إلى أن هذه CS‏ 
الدلالية يمكن ضمها معا لتكوين ds‏ يُمثل طبقة دلالية معينة» وهكذا يتم 
تكوين فراغ دلالي للكلمات ذات تركيب متدرج كما يتضح من الشكل .O-%‏ 
وقيمة هذه الدراسة تكمن في أنها نقتم نوغا من الصياغة المعلوماتية لكيفية 
إزالة اللبس الدلالي بطريقة حاسوبية» وهذه المعلومات الخاصة بإزالة اللبس 
من الممكن استخدام الحاسب الآلي في الحصول عليها آليّا من ذخيرة لغوية 
ذلت تطاق متسع. ومن 2 يمكن تجنب الأعباء الهائلة التي كانت ib‏ على 
ile‏ العنصر البشري في الماضي لعمل الترميز NY‏ للذخائر اللغوية. . 
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إن الاعتماد على هذا النموذج اللغوي في إزالة اللبس الدلالي عن 
الكلمات قد Lis‏ عنه اختصار عمليات تمييز معنى الكلمة متعددة ANY‏ إلى 
خطوتين: الخطوة الأولى تتمثل في تكوين مُتّجّه للفراغ الدلالي للكلمة متعددة 
الدلالة وفقا للسياق الذي ترد فيه dale)‏ ما يكون هذا السياق جملة)؛ ثم يتم 
البحث عن المُتّجَهات الدلالية المقابلة لهذه الكلمة متعددة الدلالة انطلاقًا من 
الفراغ الدلالي لهذه الكلمة. ويتم الحكم النهائي على معنى الكلمة في السياق 
الحالي من خلال تحديد أقرب مُتجَه دلالي aad‏ هذه الكلمة. 

- نموذج إزالة اللبس الدلالي عن الكلمات اعتمادًا على الفراغ الدلالي 

للكلمة داخل التركيب 

يتكون هذا النموذج الذي بُسْتَخْدَم في إزالة اللبس الدلالي عن الكلمات 

انطلاقا من الفراغ الدلالي للتركيب من العناصر Aa gall‏ بالشكل „o=o‏ 
وفيما يلي نشرح وظيفة كل عنصر من هذه العناصر: 

(أ) استخراج الخصائص: وذلك من خلال البحث عن الكلمات الحقيقية 
التي تتصاحب مع هذه الكلمة في كل مرة تظهر فيها داخل 
النص» مع اعتبار موقع هذه الكلمات والمشار إليه بالرمز 4 قبل 
الكلمة موضع البحث وبعدهاء مع اعتبار أن AGH)‏ وهذه 
الكلمات الحقيقية التي يتم الحصول عليها يُنَظر إليها على أنها 
الخصائص المنتّخبة لهذه الكلمة. وهذه الخطوة يتم تنفيذها مرة 
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(ب) الاختيار بين الخصائص: وفقا لمجموعة الأكواد الدلالية للكلمة 
متعددة الدلالة موضع البحث يتم تحديد الكلمات التي تساعد في 
الحكم على معنى الكلمة متعددة الدلالة؛ وذلك وفقا لقيمة درجة 
الحيرة (الإنتروبي) الذي ed‏ عن خصائص الكلمات المنتخبة» 
وتمثل هذه الكلمات مجموعة الخصائص الدلالية التي تتصف بها 
هذه الكلمة. على سبيل المثال كلمة “PRP‏ هي كلمة متعددة 
الدلالة لها ثلاثة أكواد دلالية «(Ba06/Dk17/A103)‏ فتتم مرحلة 
اختيار الخصاص وعمليات القياس التي تتبغها وفقا لهذه 
التصنيفات الدلالية الثلاثة. لذلك فإن هذه العملية هي عملية ٠‏ 
تفاعلية في إزالة اللبس. | 

(ج) وزن الخصائص: بعد اختيار الخصائصء يتم حساب قدرة كل 
خاصية على التوصيف الدلالي للكلمة موضع البحث» ونتيجة 
ذلك الحساب هي وزن كل خاصية من هذه الخصائص. ومسن 
ذلك يتم تكوين مُتَجّه للخصائص الدلالية لكل تصنيف دلالي 
تنتمي إليه الكلمة متعددة الدلالة. 
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شكل )2-0( نموذج إزالة اللبس الدلالي عن الكلمات 
اعتمادًا على الفراغ الدلالي للكلمة داخل التركيب 





(د) التعبير عن الخصائص: وفقا لمجموعة الخصائص التي يتم 
اختيارها فيما سبق» يتم استخدام متجه خصائص واحد للتعبير عن 
السياق الذي تتواجد فيه الكلمة متعددة الدلالة موضع البحث. 

(ه) حساب درجة التشابه: حيث تُحسب درجة التشابه بين مُتَجَه 
الخصائص للكلمة موضع- الدراسة والذي تم تحديده في الخطوة 
السابقة وبين date‏ الخصائص لجميع التصنيفات الدلالية التي تنتمي 
إليها تلك الكلمة. = 

(و) تحديد معنى الكلمة: حيث يتم تحديد المعنى الحالي للكلمة من 
خلال التصنيف الدلالي الذي يحصل على أعلى درجة تشابه. فإذا 
لم يكن هناك مثل هذا التصنيف الدلالي» يتم التصعيد إلى الففة 
الدلالية التي تنتمي إليها الكلمةء وإعادة عمليات إزالة اللبس إلى أن 
يتم التوصل إلى تحديد معنى الكلمة. | 
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؛ - نتيجة تجربة إزالة اللبس الدلالي عن الكلمات 
قامت لي جوان تزي بتنفيذ هذه التجربة على ذخيرة نصوص إخبارية 
من (جريدة الشعب اليومية) وصل حجمها إلى ۷۲ ميجا بايت. وفي أثناء 
التجربة تم الاستعانة بمادة لغوية ثنائية التصنيف. وكان الهدف من الاختبار هو: 
أ- التأكد من فاعلية الطريقة الحاسوبية سالفة الذكر في إزالة اللبس. 
ب- استطلاع درجة إفادة منهجية الفراغ الدلالي للكلمة داخل السياق 
في تمييز دلالة الكلمات. وقد استخدمّت لي تزى جوان الأسلوب 
التجريبي في اختبار كل من اللبس الكاذب واللبس الحقيقي للكلمات. 
)1( اختبار اللبس الكاذب في معنى الكلمة 
ما يُطلق عليه "اللبس الكاذب" هو "الكلمة متعددة المعتى" التي تنشأ 
معانيها من انتماء كلمة أحادية الدلالة إلى كودَيْن أو أكثر من أكواد التصنيف 
الدلالي. وباتباع طريقة إزالة اللبس التي نعرفها حاليّاء فإن من الممكن اعتبار 
تلك الكلمات أحادية الدلالة كلمات ذات تصنيف نحوي واحدء مثل: CIBCR‏ 
و" ا" من الممكن أن يُكونا معا زوجًا من الكلمات ذات اللبس الكاذب 
os 修改 /收购 '‏ تصنيف اللبس الخاص بهما كما يلي 18ع03/151ع11. 
| إن اختبار اللبس الكاذب هو أحد أنواع التجارب الحاسوبية التي 
تستخدم في إزالة اللبس )1992 «(Schutze 1992, Gale et al.‏ وهذا الاختبار 
من شأنه أن بقلل الجهد الذي يستغرق في تجارب الترميز NY‏ للكلمات. 
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is yas‏ بالتفصيل من خلال البدء بالبحث عن عدد المرات التي تظهر فيها 
كل كلمة من الكلمات التي تنتمي إلى اللبس الكاذب داخل ذخيرة الاختبار» ثم 
تَستَبتل تلك الكلمات بأزواج كلمات اللبس الكاذب. وهكذا فبعد إزالة اللبس 
الدلالي» يمكن استخدام ذخيرة الاختبار الأولى في حساب معدل الدقة في 
إزالة اللبس الدلالي. وبصورة عامة فإن استخدام هذه الطريقة التجريبية من 
شأنه أن يختبر مدى فاعلية أي طريقة في إزالة اللبس الدلالي. 

وينقسم اختبار اللبس = إلى نوعين: اختبار مغلق. واختيار 
مفتوح. . فالمادة اللغوية التي د تستخدم في الذخيرة ة المُغلقة يتم ختيارها من 
ذخيرة تجريبية؛ وس er‏ اللبس 
الكانب بشكل عشوائي من الذخيرة. أما المادة المُسْتَخدمة في الاختبار 
المفتوح فيتم اختيارها من ذخيرة من التصنيف نفسه»ء ولكنها خارج نطاق 
الذخيرة التجريبيةء ويتم اختيار ٠٠١‏ مثال لكل زوج من أزواج اللبس الكانب 
بشكل عشوائي. ويتم حساب معدل الدقة في إزالة اللبس الدلالي من المعادلة 
التالية: 

عدد الكلمات التي تم تحديد معناها بشكل صحيح 


معدل الدقة- 2< العدد الإجمالي للكلمات التي تحمل US Wa Vad‏ ذخيرة 
الاختبار 





way‏ الجدول ٠۷-١‏ عدد خمس نتائج اختبار للبس الدلالي الكانب. 
وهذا لإثبات أن hes‏ التصنيف الدلالي التي تتكون من كلمات اللبس الدلالي 
الكانب تتمتع بصفة الشمولء Ld‏ الجدول ١8-5‏ فيعرض عدد المرات التي 
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تظهر فيها كل كلمة من أزواج اللبس الدلالي الكانب والفئات الصغرى التي 
تنتمي إليها داخل ذخيرة التجريب. وقد أظهرت نتيجة التجربة أن: 

一‏ بالنسبة إلى متوسط معدل الدقة في إزالة اللبس الكاذب عن 
الكلمات» وصلت النسبة في كل من الاختبار GB‏ والاختبار 
المفتوح إلى AAY, 5 WAN‏ على التوالي. وهذا يدل علنى 
فاعلية نموذج لي تزي جوان لإزالة اللبس الدلالي اعتمادًا على 
الفراغ الدلالي للسياق المحيط بالكلمة» والطريقة التفاعلية التي 
استخدمتها في اختيار الخصائص كانت مناسبة. 

ب- هناك بعض أزواج اللبس الكانب» وعلى الرغم من أن عدد مرات 
ظهورها في ذخيرة التجريب كان ضعيفاء فإن التصنيفات الدلالية 
الأصغر التي تنتمي إليها هذه الكلمات كانت تظهر بكثرة في ذخيرة 
التجريب» ومن 3 حصلت هذه GLAST‏ على نسبة دقة عالية في 
إزالة اللبس. ويبدو من ذلك أن البيانات الإحصائية التي يتم 
الحصول tele‏ باستخدام الكلمات أحادية الدلالة داخل الذخيرة» من 
الممكن أن تعكس بشكل أساسي الظروف العامة لتوزيع التصنيفات 
الدلالية داخل الذخيرة. 


(Y)‏ اختبار إزالة اللبس الحقيقي 


اللبس الحقيقي يشير إلى الكلمات التي لها تعدد دلالي حقيقي؛ حيث 
يكون من المهم اختيار جزء من تلك الكلمات متعددة الدلالة من بين 
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التصنيفات المختلفة للكلمات لإجراء التجربة. bi,‏ إلى آن هذه el a‏ 
متعددة Si) Guy al UVa‏ فيها عند تكوين elst‏ التتصنيف الدلالي» 
لذلك لا تتضمن تجربة إزالة اللبس الحقيقي اختبارًا مُغلقا. وتبقى معادلة 
حساب معدل الدقة في إزالة اللبس الدلالي كما أوضحنا سابقا. 


جدول :)١37-5(‏ نتيجة تجربة إزالة اللبس الكاذب 
































































f 2 An 2 fa 
أزواج كلمات اللبس معدل الدقة في الاختبار معدل الدقة في الاختبار‎ 

ْ الكاذب المغلق المفتوح‎ 
94.0% 97.5% 权利 /事故 
89.5% 91.0% 草案 /责任 
95.0% 98.0% 预算 /预赛 
93.0% 93.0% 收购 /修改 

| 87.0% 92.5% 颁发 /参与 
92.6% 93.5% متوسط معدل الدقة‎ 











جدول :)٠١-١(‏ إحصائية الكلمات التي تحمل La‏ كاذبًا 











عدد مرات ظهور ‏ 
التصنيف الدلالي الأصغر 


2187/5088 959/979 
4010/4177 929/1563 















权利 /事故 






Di21/Da01 


































Dk17/Di22 草案 /责任 
4450/7914 176/841 Hj29/hh07 预算 /预赛 
1135/2383 788/954 He03/Hg18 收购 /修改 


颁发 /参与 
ونتيجة اختبار اللبس الدلالي الحقيقي يُظهرها الجدول 64-0 حيث‎ 
تشير نتيجة التجربة أن فكزة استخدام تكوين الفراغ الدلالي للكلمات أحادية‎ 
الدلالة وفقا للتركيب الذي ترد فيه مع الكلمات الحقيقية داخل ذخيرة التجريب‎ 


825/449 Hc11/Hi23 
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متطكية. ومقاردة سمفيجية إزاقة الل دوق alae)‏ على السياق تجد أن 


النموذج اللغوي الذي استخدمته لي تزي جوان يتمتع بمعدل دقة أعلى. وأهم 


ما في الأمر أن هذا النموذج اللغوي يتمتع بالقدرة على إجراء عمليات إزالة 


اللبس للكلمات على نطاق واسع» بالإضافة إلى أن هذه الطريقة في وصف 


دلالة الكامات قد Chadd‏ من سيت eal‏ فى لفات eel Meds‏ كيدل 


FENER 


جدول )19-0( نتيجة التجربة المفتوحة في إزالة 


اللبس الحقيقي عن الكلمات 


















































5 عدد مرات د ki‏ 
الكلمة ظهور معدل الدقة 
١ ١‏ عدد التصنيف الد لالى : 1 
متعددة تصنيف اللبس 5 ١‏ في إزاله 
: التجارب | الأصغر داخل 
الد لاله اللبس 
الذخيرة 
Dk17/Ba06/A103 材料 |‏ 791 422/1021/1913 81.7% 
Ih02/Hg18/Hj66 改‏ 2841 135/1315 309/1 70.6% 
Jd06/Di20/Hj59 表现‏ 754 20/1500/1323 68.9% 
He 1 1/Hil4/Jd03 发 表‏ __ | 2973 214/2943/5761 73.4% 
Ed43/Eb37 建 康‏ 902 101/1056 70.1% 
| متوسط معدل الدقة 72.9% 
ه - الخلاصة 


(أ) إن نموذج إزالة اللبس NY‏ اعتمادًا على الفراغ الدلالي للكلمة 
داخل التركيب ge‏ الممكن أن بقلل أعباء العمل في الترميز الدلالي 
للكلمات أو بناء بنك معلومات ذي نطاق واسع حول إزالة اللبس 


الدلالي عن الكلمات. 
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(ب) بالنسبة إلى الفراغ الدلالي للكلمة داخل التركيبء فإنه كلما 
انخفضت قيمة date‏ التصنيف الدلالي» عبر ذلك بصورة واقعية 
عن أحوال توزيع التصاحب للكلمات المترادفة داخل ذلك التصنيف 
الدلالي؛ ومن B‏ يرتفع معدل الدقة في إزالة اللبس الدلالي. ومن 
المقترح أن تقتصر مستويات إزالة اللبس بهذه الطريقة على 
المستويين الثالث والرابع (أي التصنيف الأصغر والأصغر الفرعي 
بمعجم (غابة المترادفات). | 

(ج) إن جودة نتيجة إزالة اللبس الدلالي أو سوءها تتوقف على 
الخصائص النحوية للكلمات متعددة ANA‏ فبصورة عامة نجد أن 
نتيجة إزالة اللبس الدلالي عن الأسماء أفضل منها بالنسبة إلسى 
الأفعال والصفات. وإذا تحدثنا عن الأفعال نجد أن نتيجة إزالة 
اللبس عن الأفعال متعددة الدلالة التي تقترن بمفعول به بسيط أفضل 
منها بالنسبة إلى الأفعال التي تقترن بمفعول به مركب (مثل 
المفعول به الجملةء والمفعول به المحوري الذي يشغل وظيفة 
المسند إليه بجانب كونه مفعولاً به). 

(د) كما أن نتيجة إزالة اللبس الدلالي تتوقف على تصنيف اللبس بالنسبة 
إلى الكلمة متعددة الدلالة» فكلما قلت المسافة بين الفئات الدلالية التي 
تتبعها الكلمات متعددة الدلالةء ضعفت نتيجة إزالة اللبس. 

إن بناء الفراغ الدلالي للكلمات انطلاقًا من السياق المصاحب لها 

اعتمادًا على ذخيرة كبيرة الحجم» يتناسب من حيث المبدأ مع معالجة أية 
كلمة حقيقية متعددة الدلالة» هذا بالإضافة إلى إمكانية تطبيقه مع أي لغة 
. أخرى غير اللغة الصينية. 
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قائمة الرموز المستخدمة في التصنيف النحوي للكلمات 


N اسم‎ 

اسم عام NG‏ 

اسم ale‏ شخصي NF‏ 
اسم علم جغرافي NL‏ 
اسم مؤسسة NU‏ 
ظرف زمان T‏ 
ظرف مكان S‏ 
كلمة موضع F‏ 

V فعل‎ 

VA فعل مساعد‎ 
IV رابط‎ Jad 

فعل معبر عن الاتجاه VQ‏ 
فعل الكينونة VY‏ 
فعل الملكية VH‏ 
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فعل مصدريي VN‏ 

فعل مصدري VNN Asie‏ 
فعل مصدري لازم VNO‏ 
أفعال عامة ۷6 

فعل ذو مفعول مفرد VGN‏ 
. فعل ذو مفعول مركب VGV‏ 
فعل لازم ۷60 

A صفة‎ 

كلمة حالية Z‏ 

تمييز 8 

M عدد‎ 

MJ أساسي‎ sc 

عدد ترتيبي MX‏ 

أعداد أخرى MG‏ 

كلمة كمية Q‏ 


كلمة كمية للاسم MQ‏ 


كلمة كمية للفعل QV‏ 
ROA‏ 

حرف جر P‏ 

D ظرف‎ 

حرف عطف © 2 

CF pis حرف عطف‎ 

CM Kj حرف عطف‎ 
CN وخر‎ hes خرف‎ 

كلمات مساعدة U‏ 

الكلمة المساعدة " USDE "的‏ 
الكلمة المساعدة USDI "Hh"‏ 
الكلمة المساعدة "78" USDF‏ 
الكلمة المساعدة " USSI " 似 的‏ 
الكلمة المساعدة USSU "Ait"‏ 
الكلمة المساعدة 2" USZH‏ 


كلمة مساعدة b ya‏ عن الزمن UT‏ 


489 


كلمات مساعدة أخرى UX‏ 
كلمات اللهجة ¥ 

الكلمات المعبرة. عن الصوت O‏ 
كلمة تعجب ٤‏ 

سابقة 13 

K لاحقة‎ 

I متل‎ 

J اختصار‎ 

تعبيرات شائعة L‏ 

X أخرى‎ 

سلاسل الرموز غير الرموز الصينية XCH‏ 


علامات الترقيم (كل منها يمثل تصنيفا مستقلا) 
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فهرس المصطلحات الواردة في الكتاب 


عربي - صيني 
احتمال التحول - 转移 概率 -transition probability‏ 
احتمال الظهور 出 现 概 率‏ 
إحصاء معدل تكرار الكلمات 词 频 统计‏ 
اختبار زد Z {f - Z-score‏ 
ا UR‏ 
im) MEI - Word Sense ;‏ 
زالة اللبس الد 
إزالة اللبس الدلالي Disambiguation (WSD)‏ 
إزالة اللبس الدلالي غير 无 指导 的 词义 派 歧 da gall‏ 
استقراء التوزيع الدلالي للكلمة 调查 词义 分 布‏ 
أسلوب الكتابة 体 载 - writing style‏ 
اكتساب اللغة 语言 习 得 - language acquisition‏ 
الإحصاء الكمي 定量 统计 - quantative statistics‏ 
الاختبار المغلق 封闭 测试‏ 
الاختبار المفتوح 开放 测试‏ 
الاختبارات الإحصائية 统计 测试 i‏ 
الأداء اللغوي .语言 使 用 - language performance‏ 
الاستعلام 索引 - search‏ 
ara‏ الإحصائي السياقي عن 逐 词 索引 - concordance‏ 
الاستعلام بالكلمة | 词语 检索 - word search‏ 


文本 检索 - text search | الاستعلام بالنص‎ 
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关键 词 居 中 索引 - key word in context | الاستعلام عن كلمة مفتاحية داخل‎ 


search السياق‎ 
疑问 الاستفهام‎ 
调查 الاستقراء‎ 
说 明文 体 الأسلوب التفسيري‎ 
议论 文体 الأسلوب الجدلي‎ 
记叙 文体 الأسلوب السردي‎ 
描写 文体 الأسلوب الوصفي‎ 
系 动 词 - copula ` الأسماء الموصولة‎ 
特殊 化 动词 类 الأفعال التي لها سمات خاصة‎ 
情态 动词 الأفعال المتصرفة‎ 
标准 偏差 - standard deviation الانحراف المعياري‎ 
词类 i الأنواع النحوية للمفردات‎ 
数学 分 析 التحليل الرياضي‎ 
计量 分 析 - quantitive analysis التحليل الكمي‎ 
计量 语言 分 析 - quantative language التحليل الكمي للغة‎ 
analysis 

多 维 分 析 - multi-dimensional analysis التحليل متعدد الاتجاهات‎ 
词法 语法 关联 - lexico-gra i | 2 
مده‎ i | cee, التداخل المعجمي النحوي‎ 
简约 性 和 不 爱 用 的 结构 واي يدر‎ teed Gas 
索引 行 的 排序 الترتيب المُفهْرس للأسطر‎ 
机 器 翻译 - machine translation الترجمة الآلية‎ 
标注 - tagging الترميز‎ 
搭配 - collocation التصاحب‎ 
左 搭配 词 التصاحب الأيسر‎ 
右 拱 配 词 التصاحب الأيمن‎ 
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自由 组 合 - free combination 
粘着 组 合 - bound combination 
搭配 词 - collocations 

常用 的 搭配 

模糊 范畴 - fuzzy catego 
语义 冲突 

基本 名 词 短语 
副词 短语 

形容 词 短语 

计数 - counting 
RR 

语义 亲近 - affinity 
自动 识别 

词组 边界 自动 识别 
语料库 自动 分 词 
光电 字符 识别 - 
recognition 

同 现 - co-occurrence 
词义 分 布 

自然 语言 生成 - automatic natural 
language generation | 

逐 词 索引 表 - key word in context 
(KWIC) 

主 谓 谓语 句 

状语 

处 所 和 时 间 状 语 

多 项 状语 


optical character 


493 


التصاحب الحر 

التصاحب اللصقي 
التصاحبات 

التصاحبات شائعة الاستخدام 
التصنيف الضبابي 

التضارب الدلالي 

التعبيرات الاسمية الأساسية 
التعبيرات الظرفية 
التعبيرات الوصفية 

التعداد 

التُعنقد 

التقارب الدلالي 

التمييز الآلي 

التمييز الآلي لحدود التعبيرات 
اللغوية 


التمييز الآلي لكلمات الذخيرة 
التمييز الكهروضوئي للحروف 


التو ار د 
التوزيع الدلالي للكلمة 
التوليد الآلي للغات الطبيعية 


الجدول السياقي للكلمات 

الجملة الإسنادية 

الحال 

الحال jali‏ عن المكان والزمان 
الحال gw gall‏ 


信息 量 - entropy 

智能 计算 机 

话语 - discourse 

同 质 的 语料库 - homogeneous corpus 
异 质 的 语料库 - heterogeneos corpus 
系统 的 语料库 - systematic corpus 
最 大 交集 字段 

EFX - contexts 

HA 

名 词 形式 

fa HS 

代名词 

代 动 词 

搭配 尖峰 

并 列 

统计 相关 - correlational 

交集 因子 

样本 - samples 

词义 空间 


输出 无 关 假设 - output-independence 


assumption 

句子 成 分 自动 切 分 

检索 -- concordance 

AA eJ - language competence _ 
f < 


短语 词 - phrase word 
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- المعلوماتي - الإنتروبي‎ Seal 
مقياس درجة الفوضى‎ 

الحواسيب الذكية 

الخطاب . 

الذخيرة المتجانسة 

الذخيرة المختلطة 

الذخيرة المنظومية 


السلسلة ذات الطول الأكبر في 


التداخل 

السياقات 

الشكل اللغوي 

الصيغ الاسمية 

الضجيج المعلو ماتي 
الضمير inal‏ عن الاسم 
الضمير yall‏ عن الفعل 
الطفرة التصاحبية 

العطف 

العلاقات التبادلية 

العناصر المتداخلة 

العينات 

الفراغ الدلالي للكلمة 
الفرض المستقل عن المخرجات 
الفصل الألي لعناصر الجملة 
الفهرسة 

القدرة اللغوية 

القيمة المبدئية 

الكلمات التعبيرية 


搭配 词 _ 


关键 词 居中 索引 - KWIC key words in 


context 
高 频 词 


一 词 多 义 - polysemy 
中 心 词 

歧义 

真 歧义 

伪 歧 义 

通配符 

被 动 

向 量 - vectors 

输出 概率 密度 函数 - 
Probability Density Function 
定语 

& A 

代表 性 - representation 
书面 语 

口语 

语 域 - register 

谓语 

主语 

上 下 文 信息 

语 境 中 的 意义 

词汇 特殊 性 

情态 补 语 

程度 补 语 


الكلمات المتصاحبة 
الكلمات المفتاحية داخل السياق 
الكلمات ذات معدل التكرار 
الأعلي 
الكلمات متعددة الدلالة 
الكلمة المركزية 
a‏ 
اللبس الحقيقي 
اللبس الكاذب 
اللواحق النحوية 
المبنى للمجهول 
olga ial‏ 
المتوالية Ta‏ عن ANS‏ 
مخرجات الاحتمال ‏ ` 
المحددات 
المداخل اللغوية 
المرجعية 
المستوى التحريري للغة 
المستوى الشفهي من اللغة 
. المستويات اللغوية 
المسئد 
ail‏ إليه 
المعلومات السياقية 
المعنى السياقي 
المفردات الخاصة 
LRN‏ المبين للحالة الشعورية 
Us‏ المبين للدرجة 


Output 
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经 验 主义 - empiricism 
理性 主义 - rationalism 


转换 生成 语法 理论 - transformational 


generative grammar 

经 验 主 义 - empiricism 

理性 主义 - rationalism 

比例 

段 次 比 

段 型 比 

定语 

多 项 定语 

谓语 形容 词 

定语 形容 词 - attributive adjectives 
否定 

语言 模型 - language modeling 
词 项 - lexical item 
句法 组 成 模板 

名 型 - sentence pattern 

逐 词 索引 软件 

检索 系统 

索引 程序 - Concordance program 
引文 条 - citation slips 

建立 语料库 - corpus building 
编纂 - compile 

自动 句法 分 析 l 
话语 分 析 - discourse analysis 
因素 分 析 - factor analysis 
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المنهج التجريبي 

المنهج العقلي 

النحو التحويلي التوليدي 
النزعة التجريبية 
النزعة العقلية 

النسبة 

النسبة العددية 

النسبة النوعية 

النعت 

النعت المُوسّع 

النعوت الخبرية 

النعوت الوصفية 

النفي 

النمذجة اللغوية 
الوحدات المعجمية 
أنماط التركيب النحوي 
أنماط الجمل 

برمجيات الاستعلام عن الكلمات 
برمجية الاستعلام 
بطاقات استشهاد ورقية 
بناء الذخيرة. 

تجميع 

تحليل التركيب النحوي للجمل آليًا 
تحليل الخطاب 

تحليل العوامل 


文本 至 语音 转换 -- text to sound | تحويل النصوص المكتوبة إلى‎ 


conversion مكافنها الصوتي‎ 
存储 语 料 - storage of language EE EEAS 
materials as تخزين المادة اللغوية‎ 
降序 排列 ترتيب تنازلي‎ 
标注 - tagging 
语料库 标注 - corpus tagging ترميز الذخائر اللغوية‎ 
词类 标注 ae eas 
词义 标注 - Word sense tagging ترميز معاني الكلمات‎ 
搭配 تصاحب‎ 
语料库 设计 - corpus design تصميم الذخيرة اللغوية‎ 
非 基本 名 词 短语 تعبيرات اسمية غير أساسية‎ 
介词 短语 تعبيرات الجار والمجرور‎ 
第 二 语言 的 教学 للناطقين بغيرها‎ Gall تعليم‎ 
特殊 用 途 的 语言 教学 تعليم اللغة للأغراض الخاصة‎ 
Wa تقطيع - تمييز‎ 
句子 切 分 تقطيع على مستوى الجمل‎ 
频次 تكرار‎ 
对 文本 实行 电子 编码 تكويد النصوص إلكترونيًا‎ 
语音 识别 تمييز الأصوات اللغوية‎ 
分 词 تمييز حدود الكلمات‎ 
语 域 变 体 - register variation تنوع المستوى اللغوي‎ 
索引 表 جدول مفهرس‎ 
语料库 的 保护 - corpus protection حماية الذخيرة اللغوية‎ 
主 从 关系 特征 2 خصائص الإضافة‎ 
= su دراسة التصاحبات اللغوية‎ 
词语 搭配 的 研究 A 
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离散 度 
自由 度 
维 分 - dimention score 
搭配 得 离散 度 
偏向 
数据 噪音 
搭配 的 明显 性 
凸显 词 
动态 语料库 - dynamic corpus 
规模 较 大 的 语料库 
监督 语料库 - monitor corpus 


专用 的 语料库 - specialized corpus 
训练 语料库 

语料库 - corpus 

生 语料库 - raw corpus 
计算 机 上 的 语料库 - computerized 
corpus 

文本 等 级 

宏 结构 


交集 型 歧义 切 分 字段 


交集 字段 

交集 字段 的 链 长 
Mea ke 

出 现 
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درجة التشتت 

درجةالحريّة 

درجة المؤشر 

درجة انتشار التصاحب 

درجة ثحيز 

درجة ضجيج البيانات 

درجة وضوح علاقة التصاحب 
الكلمات ذات البروز الدلالي 
ذخائر لغوية ديناميكية متغيرة 
ذخائر لغوية فائقة الحجم 

ذخائر لغوية لمراقبة التغيرات 
اللغوية 

ذخيرة الاستخدام المتخصص 
ذخيرة تعلم 

ذخيرة لغوية 

ذخيرة لغوية خام 

ذخيرة لغوية مُميِكنة 

رتبة النص 

سلاسل ذات تركيب كبير 

سلسلة كلامية تحتاج إلى إزالة 
اللبس من خلال فصل تداخل 
الحدود 

سلسلة متداخلة 

صيغة الحالة 

طول سلسلة التداخل 

طول محور التداخل 

ظهور 


عدد مرات التكرار 频次‏ 


词 频 - word frequency مرات تكرار الكلمة‎ one 
语义 无 关 عدم الارتباط إلدلالي‎ 
标点 符号 - punctuation علامات الترقيم‎ 
时 、 体 标志 علامة الزمن والحالة‎ 
语义 学 - semantics الدلالة‎ ale 
语料库 语言 学 - corpus linguistics علم الذخائر اللغوية‎ 
词法 - morphology علم الصرف‎ 
AS مانا‎ ê 3 - historical- : 5 

comparative ona cilia عام اللغة التاريخي المقارن‎ 
语 用 学 - pragmatics ae - ape E a 
计算 语言 学 - computational linguistics علم اللغة الحاسوبي‎ 
理论 语言 学 - theoretical linguistics اللغة النظري‎ ale 
方言 学 dialectology اللهجات‎ ale 
词典 学 - lexicography المعجمية‎ ale 
应 用 词汇 学 - applied lexicology علم المفردات التطبيقي‎ 
语法 学 - grammar | علم النحو‎ 
分 类 心理 学 التصتيفي‎ pat علم‎ 
词典 编纂 - lexicography علم تأليف المعاجم‎ 
样本 - sample 
多 为 实 值 向 量 空间 د‎ eee 
转换 规则 空间 فراغ قواعد التحويل‎ 
马尔 科 夫 假设 - Markov assumption فرض ماركوف‎ 
不 及 物 动 词 - transitive verb فعل لازم‎ 
及 物 动词 - untransitiveverbs فعل متعدي‎ 
助动词 - helpin verbs فعل مساعد‎ 
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名 动词 

不 可 带 宾语 的 动词 

可 带 宾语 的 动词 

趋向 补 语 

索引 - index 

数据 库 - database 

上 下 文 有 关 规 则 

相关 程度 - strength of the relationship 
搭配 强度 

ذال 

负 值 

语气 词 

结构 助词 

AY ia] 

状态 词 

量词 

名 量词 

动量 词 

时 态 助 词 

关键 词 居 中 - key word in context 
方位 词 

互信 息 - mutual information 
EE 

BRX 

伪 歧 义 

复句 

多 维 向 量 
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فعل مصدري 

فعل مصدري لازم 

فعل مصدري متعدي 
فعل معبر عن الاتجاه 
فهرس 

قاعدة بيانات 

قواعد التحويل السياقية 
قوة الارتباط 

قوة التصاحب ٠‏ 

قيمة الفرض المبدئي 
قيمة سالبة 

كلمات اللهجة 

كلمات مساعدة 

كلمة تعجب 

كلمة حالية 

كلمة كمية للاسم 

كلمة مساعدة مُعْبّرة عن الزمن 
كلمة مفتاحية داخل السياق 
كلمة موضع 

كمية المعلومات المتبادلة 
لاحقة 

لس زائف 

الجملة المركبة 

aa,‏ متعدد الأبعاد 


评价 函数 

PRB 

限定 性 定语 

区 别 性 定语 

描写 性 定语 

aR ” 

词 条 - entry 

公式 

语料库 的 加 工 - corpus processing 


然 语 言 处 理 - natural language 


processing 

召回 率 

频率 - frequency 

静态 频率 
真正 频率 - True frequency 
动态 频率 - variant frequency 
期 望 频率 - xpected frequency 
准确 率 

词 形 在 语料库 中 的 出 现 频率 
补 语 

数据 文件 - data file 

逐 词 索引 文件 - concordance file 


想象 性 文本 - Imaginative text 
知识 性 文本 - Informative text 
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مُثواليات التقييم 
متوالية ٠‏ 
مُحذذات للتقبيد 
مَحَدْدَات للتمييز 
مُحَدْدَات للوصف 
محور التداخل 

معادلة 

معالجة الذخيرة 
معالجة اللغات الطبيعية 
معدل الارتداد 

معدل التكرار 

معدل التكرار الثابت 
معدل التكرار الحقيقي 
معدل التكرار المتغير 
معدل التكرار المتوقع 
معدل الدقة 

معدل ظهور الكلمةداخلالذخيرة 
مكمل المعنى 

ملف البيانات 

ملف سياقات الكلمات 
مؤشر 

نافذة 

نافذة الاستقراء 
نصوص إبداعية 
نصوص معلوماتية _ 


， 形 式 语 法 - Formal Grammar نظرية النحو الصوري‎ 
机 器 翻译 系统 - mahcine translation 


ahi‏ الترجمة الآلية 

systems 
转换 规则 模板 نماذج قواعد التحويل‎ 
N 元 模型 N jaial نموذج‎ 
隐 马 尔 可 夫 模型 - Hidden Markov stadt BA 
Model (HMM) نموذج ماركوف الكامن‎ 
语言 工程 language engineering هندسة اللغة‎ 
平衡 - balance التوازن‎ 
均值 المتوسط الخسابي‎ 
初始 标注 模块 وحدة الترميز المبدئي‎ 
UE - weight GJ 
微 结构 سلاسل ذات تركيب دقيق‎ 
文本 媒介 وسيط النشر‎ 
召回 率 معدل التغطية‎ 
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فهرس المصطلحات الواردة في الكتاب 


被 动 

比例 

编纂 

标点 符号 
标准 偏差 
并 列 

补 语 
不 及 物 动词 
不 可 带 宾语 的 动词 
常用 的 搭配 
程度 补 语 
出 现 

出 现 概率 
初始 标注 模块 
处 所 和 时 间 状 语 
窗口 

-词典 编纂 
词典 学 

词法 语法 关联 
词汇 特殊 性 
词类 


صيني- عربي 
المبنى للمجهول 
النسبة 
تجميع - compile‏ 


punctuation - aS all علامات‎ 
tagging - الترميز‎ 

الانحراف المعياري - standard deviation‏ 
العطف 

مكمل المعنى 

transitive verbs - لازم‎ Jad 

فعل مصدري لازم 

التصاحبات شائعة الاستخدام 

Rall‏ المبين للدرجة 

ظهور 

احتمال الظهور 

وحدة الترميز المبدئي 

الحال yall‏ عن المكان والزمان 
نافذة - N-gram‏ 

lexicography - تأليف المعاجم‎ ale 
lexicography - المعجمية‎ ale 
morphology - الصرف‎ ale 
lexico- - التداخل المعجمي النحوي‎ 
grammatical associations 
المفردات الخاصة‎ 

الأنواع النحوية للمفردات 
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词类 标注 
词 频 
词 频 统 计 
词 条 
词 项 


词 形 在 语料库 中 的 出 现 频率 


词义 标注 
词义 分 布 
词义 空间 
a] XFS 


词语 搭配 的 研究 


词语 检索 


词组 边界 自动 识别 


存储 语 料 
搭配 

搭配 

搭配 词 
搭配 词 
搭配 得 离散 度 
搭配 的 明显 性 
搭配 尖峰 
搭配 强度 
代表 性 

代 动 词 
代名词 


ترميز الكلمات من حيث التصنيف النحوي 
عدد مرات تكرار الكلمة - wordfrequency‏ 
إحصاء معدل تكر ار الكلمات 

entry - Jas 

lexical item - الوحدات المُعجمية‎ 

معدل ظهور الكلمة داخل الذخيرة 

Word - US ترميز معاني‎ 
sensetagging 

التوزيع الدلالي للكلمة 

الفراغ الدلالي للكلمة 


إزالة اليس الدلالي - ( Word‏ 


SenseDisambiguation (WSD 
دراسة التصاحبات اللغوية بين الكلمات‎ 
word search - الاستعلام بالكلمة‎ 
التمييز الآلي لحدود التعبيرات اللغوية‎ 
storage -  ةيوغللا تخزين المادة‎ 
oflanguage materials 
collocation - التصاحب‎ 

تصاحب 

التصاحبات - 00110020015 

الكلمات المتصاحبة 

درجة انتشار التصاحب 

درجة وضوح علاقة التصاحب 
الطفرة التصاحبية 

قوة التصاحب 

representation - المرجعية‎ 

الضمير yall‏ عن الفعل 

الضمير المُعبّر عن الاسم 
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第 二 语言 的 教学 
定量 统计 

定语 

定语 

定语 形容 词 
动量 词 

动态 频率 

动态 语料库 
短语 词 

段 次 比 

段 型 比 

对 文本 实行 电子 编码 
多 为 实 值 向 量 空间 


多 维 分 析 


多 维 向 量 
多 项 定语 
多 项 状语 
方位 词 
方言 学 

非 基 本 名 词 短 语 
分 词 
分 类 心理 学 
封闭 测试 
否定 _ 
负 值 

BA 


تعليم اللغات للناطقين بغيرها 
الإحصاء الكمي - quantativestatistics‏ 
lool‏ 

النعت 

النعوت الوصفية - attributiveadjectives‏ 
كلمة كمية للفعل 

معدل التكرار المتغير - variantfrequency‏ 
ذخائر لغوية ديناميكية متغيرة - dynamic‏ 
i corpus‏ 

phrase word - الكلمات التعييرية‎ 

النسبة العددية 

النسبة النوعية 

تكويد النصوص إلكترونيًا 

فراغ A‏ الحقيقي متعدد الأبعاد 

multi- - التحليل متعدد الاتجاهات‎ 
l dimensionalanalysis 

4a‏ متعدد الأبعاد 

النعت الموسع 

gow pall الحال‎ 

كلمة موضع 

dialectology - اللهجات‎ ale 

تعبيرات اسمية غير أساسية 

تمييز حدود الكلمات ٠‏ 

ale‏ النفس التصنيفي 

الاختبار المغلق 

gil 

448 yall الجملة‎ 
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副词 短语 
高 频 词 
公式 


关键 词 居中 


关键 词 居 中 索引 
观察 窗口 

光电 字符 识别 
规模 较 大 的 语料库 
函数 

宏 结构 

EE 

互信 息 

话语 

话语 分 析 

机 器 翻译 

机 器 翻译 系统 
基本 名 词 短 语 - 
及 物 动词 
计量 分 析 

计量 语言 分 析 
计数 
计算 机 上 的 语料库 


التعبيرات الظرفية 

الكلمات ذات معدل التكراز الأعلى 

معادلة 

كلمة مفتاحية داخل السياق - key wordin‏ 
context‏ 


. الاستعلام عن كلمة مفتاحية داخل السياق - 
key word in context search‏ 
نافذة الاستقراء 


التمييز الكهروضوني Sant‏ >[ 


opticalcharacter recognition — 

ذخائر لغوية فائقة الحجم 

متوالية 

سلاسل ذات تركيب كبير 

لاحقة 

كمية المعلومات المتبادلة 5 

mutualinformation 

discourse - الخطاب‎ 

discourse analysis - تحليل الخطاب‎ 

machine translation - الترجمة الألية‎ 

mahcinetranslation - الترجمة الألية‎ aki 

systems 

التعبيرات الاسمية الأساسية 

فعل متعدي - untransitiveverb‏ 

quantitive analysis - التحليل الكمي‎ 

التحليل الكمي للغة - quantativelanguage‏ 

: analysis 
counting - التعداد‎ 

ذخيرة لغوية مميكنة - computerized‏ 

corpus 
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计算 语言 学 
记叙 文体 

监督 语料库 
检索 

检索 系统 


简约 性 和 不 爱 用 的 结构 


建立 语料库 
降序 排列 


交集 型 歧义 切 分 字段 


交集 因子 

交集 字段 

交集 字段 的 链 长 
结构 助词 

介词 短语 

经 验 主 义 

经 验 主义 

静态 频率 
句法 组 成 模板 
句 型 
句子 成 分 自动 切 分 
句子 切 分 

聚 类 

均值 

开放 测试 

可 带 宾语 的 动词 


علم اللغة الحاسوبي 3 
computationallinguistics‏ 


الأسلوب السردي 


ذخائر لغوية لمراقبة التغيرات اللغوية J-‏ 


monitor corpus 

الفهرسة - concordance‏ 
برمجية الاستعلام 

التراكيب المختصرة والتي ينذر استخدامها 

corpus building - الذخيرة‎ ely 

ترتيب تنازلي 

سلسلة كلامية تحتاج إلى إزالة اللبس من خلال 

فصل تداخل الحدود 

العناصر المتداخلة 

سلسلة متداخلة 

طول سلسلة التداخل 

كلمات مساعدة 

تعبيرات الجار والمجرور 

المنهج التجريبي - empiricism‏ 

النزعة التجريبية - empiricism‏ 

معدل التكرار الثابت 

أنماط التركيب النحوي 

sentence pattern - أنماط الجمل‎ 

الفصل الآلي لعناصر الجملة 

تقطيع على مستوى الجمل 

Sil 

المتوسط الحسابي 

الاختبار المفتوح 

فعل مصدري متعدي 
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口语 
离散 度 
.理论 语言 学 
理性 主义 
理性 主义 
历史 比较 语言 
量词 

N 元 模型 
马尔 科 夫 假设 
描写 文体 
描写 性 定语 
名 词 形式 
名 动词 

名 量词 
模糊 范畴 
耦合 段 
耦合 长 度 
偏向 

频次 

频次 

频率 

平衡 

评价 函数 
期 望 频率 
歧义 


المستوى الشفهي من اللغة 
درجة التشتت 
ale‏ اللغة النظري - theoretical‏ 
linguistics‏ 
المنهج العقلي - rationalism‏ 
النزعة العقلية - rationalism‏ 
le‏ اللغة التاريخي المقارن historical-‏ 
comparative linguistics‏ 
فرض ماركوف - Markov assumption‏ 
الأسلوب الوصفي 
مُحَدْدَات للوصف 
الصيغ الاسمية 
فعل مصدري . 
كلمة كمية للاسم 
التصنيف الضبابي - fuzzy category‏ 
محور التداخل 
طول محور التداخل 
درجة تحَيّز 
تكرار 
عدد مرات التكرار 
معدل التكرار - frequency‏ 
التوازن - balance‏ 
مثواليات التقييم 
معدل التكرار المتوقع > 
expectedfrequenc‏ 


اللبس 
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Wa 
切 分 歧义 
情态 补 语 
情态 动词 
区 别 性 定语 
趋向 补 语 
权 值 

然 语言 处 理 
上 下 文 

上 下 文 信息 
上 下 文 有 关 规 则 
生 语 料 库 
体 标志 、 时 
时 态 助词 
书面 语 


输出 概率 密度 函数 


输出 无 关 假设 
数据 库 

数据 文件 
数据 噪音 
数学 分 析 

说 明文 体 
索引 

索引 

索引 表 


تمييز اللبس 

Ea‏ المبين للحالة الشعورية 
الأفعال المتصرفة . 

مُحَدْدَات للتمييز 

فعل معبر عن الاتجاه. 

weight - وزن‎ 


معالجة اللغات الطبيعية - naturallanguage‏ | ` 


processing 

contexts - السياقات‎ 

المعلومات السياقية | 

قواعد التحويل السياقية 

ذخيرة لغوية خام - raw corpus‏ 

علامة الزمن والحالة 

كلمة مساعدة b ya‏ عن الزمن 

المستوى التحريري للغة. 

المتوالية المعبرة عن كثافة مخرجات الاحتمال 
Output ProbabilityDensity -‏ 
Function‏ 

الفرض المستقل عن المخرجات output-‏ 
independence assumption‏ 

قاعدة بيانات - database‏ 

data file - ملف البيانات‎ 

درجة ضجيج البيانات 

التحليل الرياضي 

الأسلوب التفسيري 

search - الاستعلام‎ 

index - فهرس‎ 

جدول مفهرس 
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索引 程序 
索引 行 的 排序 
叹 词 
特殊 化 动词 类 
特殊 用 途 的 语言 教学 
KB. 

条 目 

调查 

调查 词义 分 布 
通配符 

同 现 

同 质 的 语料库 
统计 测试 
统计 相关 

fh bial 

微 结构 

维 

维 分 

LES 
LEN 

谓语 

谓语 形容 记 
文本 等 级 
文本 检索 
文本 媒介 


文本 至 语音 转换 
文学 与 语言 计算 


برمجية فهرسة - Concordance program‏ 
الترتيب المُفهؤرس للأسطر 

الأفعال التي لها سمات خاصة 

تعليم اللغة للأغراض الخاصة 

writing style - أسلوب الكتابة‎ 

المداخل اللغوية 

الاستقراء 

استقراء التوزيع الدلالي للكلمة 

اللواحق النحوية 

التوارد - co-occurrence‏ 
الذخيرة المتجانسة - homogeneouscorpus‏ 
الاختبارات الإحصائية 

العلاقات التبادلية - correlational‏ 

الكلمات ذات البروز الدلالي 

سلاسل ذات تركيب دقيق 

مؤشر 

dimention score - درجة المؤشر‎ 

اللبس الكانب 

od‏ زائف 

ual 

النعوت الخبرية 

رتبة النص 

text search - الاستعلام بالنص‎ 

وسيط النشر 

تحويل النصوص المكتوبة إلى مكافئها الصوتي 
text to sound conversion -‏ 

الدراسات الحاسوبية للأدب واللغة - literary‏ 
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FESANE 
系 动词 
系统 的 语料库 
“限定 性 定语 

相关 程度 


想象 性 文本 
向 量 
信息 量 

fea SM 
形容 词 短 语 
形式 语法 
训练 语料库 
样本 
一 词 多 义 
疑问 

议论 文体 
因素 分 析 
引文 条 


隐 马 尔 可 夫 模 型 
应 用 词汇 学 

右 搭 配 词 
语法 学 

语 境 中 的 意义 


and linguistic computing 

إزالة اللبس الدلالي غير الموجه 

الأسماء الموصولة - copula‏ 

الذخيرة المنظومية - systematiccorpus‏ 

ll محدذات‎ 

strength of the -  طابترالا‎ i 

relationship 

Imaginative text - إبداعية‎ ya pai 

vectors - المُتجهات‎ 

الجمل المعلوماتي - الإنتروبي - مقياس درجة 

i entropy - الفوضى‎ 

الضجيج المعلو ماتي 

التعبيرات الوصفية 

نظرية النحو الصوري - Formal.‏ 

Grammar 

ذخيرة تعلّم 

samples - العينات‎ 

polysemy - AS Yall متعددة‎ GLASS 

الاستفهام 

الأسلوب الجدلي 

factor analysis - تحليل العرامل‎ 

بطاقات استشهاد 4855 - citationslips‏ 

نموذج ماركوف الكامن - ( Hidden‏ 

Markov Model (HMM 

علم المفردات التطبيقي x‏ 
appliedlexicolog‏ 

التصاحب الأيمن 

grammar - النحو‎ ale 

المعنى السياقي 
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语料库 
语料库 标注 
语料库 的 保护 
语料库 的 加 工 
语料库 设计 
语料库 语言 学 
语料库 自动 分 词 
语气 词 

语 式 

语言 工程 
语言 模型 
语言 能 力 
语言 使 用 
语言 习 得 
语义 冲突 
语义 无 关 
语义 学 
语音 识别 
语 用 学 

语 域 

语 域 变 体 
Ei 

HJ {Ê 

Z 分 值 
粘着 组 合 


ذخيرة لغوية - corpus‏ 

ترميز الذخائر اللغوية - corpustagging‏ 
حماية الذخيرة اللغوية - . corpus‏ 
protection‏ 

معالجة الذخيرة - corpus processing‏ 
تصميم الذخيرة اللغوية - corpus design‏ 
ale‏ الذخائر اللغوية - corpus linguistics‏ 
التمييز الآلي لكلمات الذخيرة 

كلمات اللهجة 

الشكل اللغو يي 

هندسة اللغة - language engineering‏ 
النمذجة اللغوية - language modeling‏ 
القدرة اللغوية - language competence‏ 
الأداء اللغري - language performance‏ 
اكتساب اللغة - language acquisition‏ 
التضارب الدلالي 

التقارب الدلالي - affinity‏ 

عدم الارتباط الدلالي 

semantics -Ya ale 

تمييز الأصوات اللغوية 

علم اللغة التداولي - علم الاستخدام اللغوي - 
pragmatics‏ 

المستويات اللغوية - register‏ 

تنوع المستوى اللغوي 

القيمة المبدئية 

قيمة الفرض المبدئي 

اختبار زد - Z-score‏ 

bound combination - التصاحب اللصقي‎ 
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召回 率 
召回 率 
HIN 

真 歧义 
真正 频率 
知识 性 文本 
智能 计算 机 
中 心 词 
逐 词 索引 


逐 词 索引 表 
逐 词 索引 软件 
逐 词 索引 文件 
主 从 关系 特征 
主 谓 谓语 句 
主语 

助动词 
专用 的 语料库 
转换 规则 空间 
转换 规则 模板 


转换 生成 语法 理论 


转移 概率 
状态 词 
状态 形式 
状语 


معدل الارتداد 

معدل التغطية 

اللبس الحقيقي 

لبنس حقيقي 

معدل التكرار الحقيقي - Truefrequency‏ 
نصوص معلوماتية - Informative text‏ 
الحو اسيب الذكية 

الكلمة المركزية 

الاستعلام الإحصائي السياقي عن الكلمات - 
concordance‏ 

key word in ( - الجدول السياقي للكلمات‎ 
context (KWIC 

برمجيات الاستعلام عن الكلمات 

ملف سياقات الكلمات - concordance file‏ 
خصائص الإضافة 

الجملة الإسنادية 

iadi‏ إليه 

helping verb - فعل مساعد‎ 

ذخيرة الاستخدام المتخصص - specialized‏ 
corpus‏ 

فراغ قواعد التحويل 

نماذج قواعد التحو يل 

s النحو التحويلي التوليدي‎ 
transformational generative 
grammar 


احتمال التحول - transition probability‏ 
كلمة حالية 

صيغة الحالة 

الحال 
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准确 率 
自动 句法 分 析 
自动 识别 
自然 语言 生成 


自由 度 
自由 组 合 

最 大 交集 字段 
左 搭配 词 


معدل الدقة 

تحليل التركيب النحوي للجمل آلا 

التمييز الآلي 

التوليد الألي للغات الطبيعية - automatic‏ 
language generation‏ 

درجةالحريّة 

التصاحب الحر - free combination‏ 
السلسلة ذات الطول: الأكبر في التداخل 
التصاحب الأيسر 
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١ © eas 
المؤلف في سطور“‎ 
الرئيس لهذا الكتاب هو الأستاذ الدكتور خوانغ تشانغ نينغء‎ alya 
أحد أشهر علماء اللغة الحاسوبيين في الصين. ولد خوانغ تشانغ نينغ عام‎ 
تخرج في قشم المحركات‎ ١ في مقاطعة جوانغ دونغ» في عام‎ ۷ 
سافر في بعشة إلى‎ VAAN الكهربية بجامعة تشينغ خوا ببكين. وفي عام‎ 
وعمل‎ vale بالولايات المتحدة الأمريكية لمدة‎ (Yale University) جامعة ييل‎ 
NAAN في التدريس لمدة عام بجامعة العلوم والتكنولوجيا بهونج كونج عام‎ 
وفي عام ٩۱۹۹ء عمل مديرا لمركز أبحاث شركة ميكروسوفت في الصين.‎ 
وينظر إليه الصينيون باعتباره ممهد الطريق لتوطين علوم المعالجة الآلية‎ 
للغات الطبيعية في الصين. في سبعينيات القرن العشرين ذاع صيته كأستاذ‎ 
متميز في جامعة تشينغ خوا عندما الف مُقرّر (دوائر الترانزستور)؛ حيث‎ 
حقق هذا المقرر مبيعات زادت عن مليون نسخة داخل الصين. وبعد ذلك»‎ 
ترجمة لكتابين أحدثا أثرا كبيرا في المجتمع العلمي الصيني هما كتاب‎ pi 
ليملا‎ «(LISP وكتاب (البرمجة باستخدام لغة‎ (clin! (مبادئ الذكاء‎ 
بذلك الفراغ العلمي الموجود في تلك الفترة.‎ 
وقد وصل خوانغ تشانغ نينغ إلى قمة أخرى من قمع الشهرة العلمية‎ 
الدراسات المتعلقة بعلم معالجة اللغات الطبيعية؛ حيث‎ Jia عندما عمل في‎ 


)1( ملحوظة: الكتاب الأصلي لا يحتوي على تعريف بالمؤلف» ولذلك تم التعريف به في مقدمة المترجم. 
بالإضافة إلى كتابة هذا التعريف في نبذة مستقلة. 
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بدأ بتنظيم مجموعات بحثية داخل الصين وخارجها في هذا المجالء ثم تولى 
رئاسة العديد من المؤتمرات الدولية وهيئات المبرمجين في مجال المعالجة 
الآلية للغات الطبيعية. ويتولي خوانغ تشانغ نينغ الآن رئاسة تحرير (المجلة 
العلمية للمعلوماتية الصينية)؛ بالإضافة إلى كونه مُحكمًا وعضو هيئة تحرير 
العديد من المجلات العلمية الدولية؛ مثل: (المجلة التخصصية في معالجة 
المعلومات باللغات الآسيوية (ACM‏ بالولايات المتحدة الأمريكيةء و (النشرة 
الدورية لجمعية معالجة المعلومات باللغة الصينية واللغفات الشرقية) 
بسنغافورة» ومجلة (معالجة اللغات الطبيعية) باليابان» ومجلة (دراسات نقدية 
حول ale‏ اللغة في الصين) بهونج كونجء ومجلة (علم اللغة الحاسوبي 
ومعالجة اللغات الصينية) بتايوان!". 

وقد شارك خوانغ تشانغ نينغ في مشروعين بحثيين في إطار الخطة 
الخمسية السابعة للحكومة الصينية عام ١۱۹۸ء‏ هما: مشروع "الفهم الآلي 
للغات الطبيعية والبرامج البينية بين الإنسان والآلة' وكان ذلك في نطاق 
مشروعات العصف الذهني» ومشروع 'تقنيات الفهم الآلي للنصوص 
العسكرية" في نطاق المشروعات البحثية المستقبلية للدفاع الوطني بالإضافة 
إلى مشروع 'نظام للترجمة الآلية بين اللغتين الصينية واليابانية" بالتعاون بين 
جامعتي تشينغ خو ونانكين الصينيتين. وقد حصل هذا المشروع على المركز 





)١(‏ لمزيد من المعلومات عن المؤلف» انظر الموسوعة الصيئية على الرابط التالي:. 
http://baike.baidu.com/view/1615502.htm‏ 
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الثاني في مجال تطوير العلوم والتكنولوجيا من لجنة التعليم بالحكومة 
الصينية. ش 


وقد سبق أن تولى خوانغ تشانغ نينغ رئاسة الفريق البحثي الصيني 
الذي GE‏ من وزارة الصناعات الإلكترونية الصينية للمشاركة في مشروع 
الترجمة الآلية متعدد اللغات الذي رصدت له الحكومة اليابانية خمسين مليون 
دولار أمريكي عام ١414٠‏ لتطوير نظام للترجمة الآلية بين لغات خمس دول 
آسيوية هي: اليابان» والصينء وماليزياء وسنغافورة» وتايلاند. 

وفي عام 1440 شارك في مشروع بحثي للترجمة الآلية بين اللغتين 
الإنجليزية والصينية ممثلا عن جامعة تشينغ خوا الصينية بالتعاون مع شركة 
DEC‏ الأمريكية. كما نجح مع فريقه البحثي في .بيع حقوق الملكية الفكرية 
لعدد من النتائج البحثية لشركتي آي بي IBM al‏ وميكروسوفت „Microsoft‏ 

لي جوان تري 

تخرجت عام ١185‏ في قسم علوم الحاسب والتكنولوجيا بجامعة شان شي 
الصينيةء وحصلت على الدكتوراه عام ۲٠٠١‏ في التخصص ذاته من جامعة تشينغ 
خواء وعملت die‏ عام ٠٠١١‏ بقسم الحاسب بجامعة تشينغ cl gd‏ وتشغل ٠٠٠٤ iia‏ 
منصب نائب رئيس مركز بحوث البرمجيات التابع لقسم علوم الحاسب 
والتكنولوجيا بالجامعة نفسهاء كما أنها عضو بجمعية الحاسب الصينية منذ عام 
Yeye‏ 

أهم توجهاتها البحثية معالجة المعلومات باللغة الصينية» واكتشاف المعارف 
وإدارتها في بيئة الإنترنت»ء شاركت أكثر من مرة كعضو رئيس في مشروعات 
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الحكومة الصينية في مجال المعلومات؛ حيث عملت في الفترة من ٩4۲-1۹۹۰‏ د 
كمسؤول رئيس عن المشروع البحثي ل "التحليل الآلي للجمل في اللغة الصينية"؛ 
كما عملت باحثًا Uni‏ في المشروع الرئيس للحكومة الصينية في مجال العلوم 
الطبيعية عن "النظريات والمنهجيات والأدوات البحثية المستخدمة في ple‏ الذخائر 
"A pall‏ وذلك في الفترة من 3444-144 وحازت عام VATE‏ على جائزة 
التقدم التكنولوجي من الدرجة الأولى من مقاطعة شان شي. 
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المترجم في سطور 


أستاذ الترجمة واللغويات الحاسوبية» بقسم اللغة الصينية» بكلية الألسن 

一‏ جامعة عين شمس. 
حصل على ماجستير الألسن في الترجمة التحريرية عام AMY‏ 
حصل على دكتوراه الألسن”في اللغويات التقابلية بين الصينية والعربية 

عام VAY‏ 
حصل على درجة أستاذ في الترجمة واللغويات الحاسوبية عام .5١١١‏ 
شارك في تأسيس قسم.اللغة إلصينية بكلية الآداب جامعة القاهرة عام 

eed 

الإنتاج العلمي البحثي: 

. قام بتأليف ونشر العديد من الأبحاث في مجال اللغويات التطبيقيةء 

. والترجمة» واللغويات الحاسوبية» نذكر منها على سبيل المثال: 

-١‏ 'إشكاليات تهيئة الذخائر اللغوية وبنائها حاسوبيًا: اللغكان العربية 
والصينية نموذجا" (نشر في مجلد المؤتمر الثاني عشر لمعالجة 
المعلومات بلغات القوميات الأقلية بالصين). 

ely’ 一‏ قاعدة بيانات للتصاحب اللغوي في الصينية والعربية: دراسة 
إحصائية حاسوبية" (نشر في مجلد أبحاث المؤتمر الدولي التاسع لتعليم 
اللغة الصينية للأجانب بالصين» وحصل على جائزة البحوث المبتكرة). 
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“- 'قواعد البيانات الإلكترونية وتطوير صناعة المعاجم المتخصصة ثنائية 
اللغة". 

- "إشكاليات ترجمة أسماء الأعلام بين اللغتين الصينية والعربية". 

ه- "تجاه جديد لتعليم الرموز الصينية انطلاقا من المدخل المنظومي ف 
التعليم والتعلم" (نشر في مجلد أبحاث المؤتمر الدولي الثامن لتعليم اللغة 

5- "الجامعة العربية المفتوحة وتعليم اللغات الأجنبية: اللغة الصينية 
نموذجا". 

۷- "المدخل المنظومي والوسائط المتعددة في تعليم وتعلم الترجمة الفورية". 
قام بتأليف عدد من المقررات الدراسية في اللغويات التطبيقية 

والترجمة: 

١‏ - (محاضرات في الاستماع باللغة الصينية). 

-Y‏ (مبادئ الترجمة التحريرية من الصينية إلى العربية). 

-Y‏ (الجملة المركبة بين اللغتين الصينية والعربية: دراسة تقابلية). 


هع 


الإنتاج في مجال الترجمة: 

ترجمة كتاب (فن الحرب: النص الأصلي لسون تزي وشروحه 
المعاصرة)» صدر ضمن أعمال المشروع القومي للترجمة؛ العدد 4٦۷‏ 
rr)‏ | 
الصينية Yee alc‏ 
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تبظيم أربع ورش عمل في الترجمة التخصصية لإعداد كوادر من ' 
الطلاب بكلية الألسن جامعة عين شمس» نتج عنها أربعة أعداد من مجلة 
الجسر التي يرأس تحريرها. 

تخطيط ورشة للترجمة التخصصية عن اللغة الصينية وتتفيذهاء التي 
انعقدت في المركز القومي للترجمة في العام التدريبي .٠٠٠٠-۲١٠١‏ 

تنظيم دورة صيفية مجانية لمدة ثلاثة أشهر لعدد 4" طالبًا وطالبة من 
قسم اللغة الصينية بكلية الألسن جامعة عين شمس للتدريب على مهارات 
الترجمة من خلال فريق عملء ونتج عن الدورة ترجمة كتاب في YY.‏ 
صفحة من اللغة الصينية بعنوان ( كيف يربح أبناؤنا في عصر الإنترنت). 
تأسيس جماعة رؤية للترجمة من اللغة الصينية من طلاب قسم اللغة 
الصينية بكلية الآداب جامعة القاهرة عام ٠٠٠٠ء‏ وكان أول عمل تمت 
ترجمته كتاب (قطوف من الحكمة الصينية). . 

مراجعة كتاب (كيف تجعل أبناعك يحبون الدراسة)ء تأليف يانغ شياء 
ترجمة مي عاشورء والذي صدر ضمن أعمال المشروع القومي Aan fill‏ 
العدد ۱۹۲۳۰ عام VON)‏ 

الإشراف على إعداد عدد منالمترجمين عن اللغة الصينية من خلال 
اقتراح سلسلة من الكتب المتخصصة باللغة الصينية» وترشيح المترجمين 
الجذد وتدريبهم. 

ترجمة سلسلة من المقررات الدراسية لتعليم اللغة الصينية للناطقين 
باللغة العربية» بعنوان (اللغة الصينية في مائة محاضرة). 
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التصحيح اللغوى. : يم عاش ور 
الإشراف i‏ حسسز كال 


